多元统计第三次上机试验报告

1
2
data=iris[,1:4]
dist.e=dist(data)
1
2
3
model1=hclust(dist.e)
plot(model1)
result0=cutree(model1,k=3)
1
2
model2=kmeans(data,centers=3)
model2
1
2
3
4
5
library(MASS)
xxx=iris[,1:4]
yyy=iris[,5]
model2=lda(yyy~.,data=xxx,prior=c(1,1,1)/3)
model2

附加题

Prepare:首先将两个附件中数据提取到csv文件中,分别命名为file1.csv,file2.csv

1.利用附件1中数据对各省进行聚类分析,说明应分成几类,各类包括哪些省份.

1
2
3
4
#read file1
file1=read.csv('/home/fantasy/Desktop/task3/file1.csv')
x=file1[,2:9]
x

方法1:系统聚类(层次聚类)

1
2
3
4
5
6
#calculate distance
d=dist(x)
#cluster
hc=hclust(d)
#plot
plot(hc,hang=-1)

若指定聚类数k和分类高度h,令k=3,h=200:

1
2
print("result:")
cutree(hc,k=3,h=200)

方法2:k-均值聚类

1
kmeans(x,center=3,iter.max=100,nstart=2333)

2.利用附件2中数据对广东和西藏进行判别,说明其属于哪个类别.

1
2
3
file2=read.csv('/home/fantasy/Desktop/task3/file2.csv')
xx=file2[1:29,2:9]
yy=file2[1:29,10]
1
D=dist(xx)
1
2
library(MASS)
l=lda(yy~.,data=file2[1:29,2:9])
1
plot(l)
1
2
#make prediction
predict(l,file2[30:31,2:9])
凡希 wechat
喜欢所以热爱,坚持干货分享,欢迎订阅我的微信公众号
呐,请我吃辣条