对应分析

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
#第一题
file1=read.csv('C://Users//Administrator//Desktop//data//1.csv',head=T);

#第二题
data1=file1[,2:3];
chisq.test(data1);
#分析结果:p-value = 7.628e-06,所以拒绝原假设(不相关),说明收入高低对满意程度相关

#第三题
file2=read.csv('C://Users//Administrator//Desktop//data//2.csv');
data2=file2[,2:5];
freq_num= table (data2);#统计频数
prop.table(freq_num);#将频数表变成频率表

#第四题
#首先统计双变量频数形成列联表
b= table (data2$ Treatment ,data2$Sex);#统计双变量频数形成列联表
c=table (data2$Sex ,data2$Improved);#统计双变量频数形成列联表
#接下来将频数表变成频率表
prop.table(b);
prop.table(c);
#最后利用列联分析说明Sex与Treatment和Improved是否相关
chisq.test(b);#p-value = 0.5356,说明Treatment与Sex不相关
chisq.test(c);#p-value = 0.08889,说明Improved与Sex也不相关
1
2
3
4
5
6
7
#第五题
library(MASS);
file3=read.csv('C://Users//Administrator//Desktop//data//3.csv');
data3=file3[,2:6];
d=corresp(data3,2)#2指选用两个因子,结果中有行列因子的得分
biplot(d);#绘图
abline(v=0,h=0)#加入参考线



1
2
3
4
5
6
7
8
#分析:对应分析图被参考线划分为4个区域,其中,
#(1)在不同象限表示距离较远,这里的距离是任意两者之间相关性的度量;
#(2)位置是相对于中心的距离,距该离越小说明相对所属类别相对常见;
#(3)角度越小,代表两者相关性越强。
#因此我们可以得出以下结论:
# 1.学士,高中和大专的学历相对常见,也对,一般上了高中之后要么进入university(学士学位),或者进入college(大专)
# 2.高中和大专的相关性较之于其它比较来说相关性最强
# 3.硕士和高中以下出现频率较低,说明高中以下学历和硕士学历两者一个处于学历链的偏上端,一个处于偏下端,这也和我们的认知相符。

1
2
3
4
5
6
#第六题
file4=read.csv('C://Users//Administrator//Desktop//data//4.csv');
data4=file4[,1:6];
e=corresp(data4,2)#2指选用两个因子,结果中有行列因子的得分
biplot(e);#绘图
abline(v=0,h=0)#加入参考线



1
2
3
#分析:
#(1)使用小米和荣耀的人群相对常见,而使用苹果和VIVO的人群相对较少;
#(2)使用小米和荣耀的人群之间相关性较强,说明一般使用小米的人也可能会对荣耀情有独钟,反之亦然;

凡希 wechat
喜欢所以热爱,坚持干货分享,欢迎订阅我的微信公众号
呐,请我吃辣条