对应分析 | 一个大学狗的日常

#第一题
file1=read.csv('C://Users//Administrator//Desktop//data//1.csv',head=T);

#第二题
data1=file1[,2:3];
chisq.test(data1);
#分析结果：p-value = 7.628e-06,所以拒绝原假设（不相关），说明收入高低对满意程度相关

#第三题
file2=read.csv('C://Users//Administrator//Desktop//data//2.csv');
data2=file2[,2:5];
freq_num= table (data2);#统计频数
prop.table(freq_num);#将频数表变成频率表

#第四题
#首先统计双变量频数形成列联表
b= table (data2$ Treatment ,data2$Sex);#统计双变量频数形成列联表
c=table (data2$Sex ,data2$Improved);#统计双变量频数形成列联表
#接下来将频数表变成频率表
prop.table(b);
prop.table(c);
#最后利用列联分析说明Sex与Treatment和Improved是否相关
chisq.test(b);#p-value = 0.5356，说明Treatment与Sex不相关
chisq.test(c);#p-value = 0.08889，说明Improved与Sex也不相关

#第五题
library(MASS);
file3=read.csv('C://Users//Administrator//Desktop//data//3.csv');
data3=file3[,2:6];
d=corresp(data3,2)#2指选用两个因子，结果中有行列因子的得分
biplot(d);#绘图
abline(v=0,h=0)#加入参考线

#分析：对应分析图被参考线划分为4个区域，其中，
#(1)在不同象限表示距离较远，这里的距离是任意两者之间相关性的度量；
#(2)位置是相对于中心的距离，距该离越小说明相对所属类别相对常见；
#(3)角度越小，代表两者相关性越强。
#因此我们可以得出以下结论：
# 1.学士，高中和大专的学历相对常见，也对，一般上了高中之后要么进入university（学士学位），或者进入college(大专)
# 2.高中和大专的相关性较之于其它比较来说相关性最强
# 3.硕士和高中以下出现频率较低，说明高中以下学历和硕士学历两者一个处于学历链的偏上端，一个处于偏下端，这也和我们的认知相符。

#第六题
file4=read.csv('C://Users//Administrator//Desktop//data//4.csv');
data4=file4[,1:6];
e=corresp(data4,2)#2指选用两个因子，结果中有行列因子的得分
biplot(e);#绘图
abline(v=0,h=0)#加入参考线

1
2
3

#分析：
#(1)使用小米和荣耀的人群相对常见，而使用苹果和VIVO的人群相对较少；
#(2)使用小米和荣耀的人群之间相关性较强，说明一般使用小米的人也可能会对荣耀情有独钟，反之亦然；