一个大学狗的日常

放弃不难，但坚持一定很酷

多元统计第三次上机试验报告

发表于 2018-10-12 | 分类于 R | 阅读次数：

1 2	data=iris[,1:4] dist.e=dist(data)

1
2
3

model1=hclust(dist.e)
plot(model1)
result0=cutree(model1,k=3)

1 2	model2=kmeans(data,centers=3) model2

library(MASS)
xxx=iris[,1:4]
yyy=iris[,5]
model2=lda(yyy~.,data=xxx,prior=c(1,1,1)/3)
model2

附加题

Prepare:首先将两个附件中数据提取到csv文件中，分别命名为file1.csv，file2.csv

1.利用附件1中数据对各省进行聚类分析，说明应分成几类，各类包括哪些省份.

#read file1
file1=read.csv('/home/fantasy/Desktop/task3/file1.csv')
x=file1[,2:9]
x

方法１：系统聚类（层次聚类）

#calculate distance
d=dist(x)
#cluster
hc=hclust(d)
#plot
plot(hc,hang=-1)

若指定聚类数k和分类高度h,令k=3，h=200:

1 2	print("result:") cutree(hc,k=3,h=200)

方法２：k-均值聚类

1	kmeans(x,center=3,iter.max=100,nstart=2333)

2.利用附件2中数据对广东和西藏进行判别，说明其属于哪个类别.

1
2
3

file2=read.csv('/home/fantasy/Desktop/task3/file2.csv')
xx=file2[1:29,2:9]
yy=file2[1:29,10]

1	D=dist(xx)

1 2	library(MASS) l=lda(yy~.,data=file2[1:29,2:9])

plot(l)

1 2	#make prediction predict(l,file2[30:31,2:9])

喜欢所以热爱，坚持干货分享，欢迎订阅我的微信公众号

呐，请我吃辣条