725编号应用多元统计分析作业

上传人:玩*** 文档编号:145840327 上传时间:2020-09-23 格式:PDF 页数:15 大小:306.62KB
返回 下载 相关 举报
725编号应用多元统计分析作业_第1页
第1页 / 共15页
725编号应用多元统计分析作业_第2页
第2页 / 共15页
725编号应用多元统计分析作业_第3页
第3页 / 共15页
725编号应用多元统计分析作业_第4页
第4页 / 共15页
725编号应用多元统计分析作业_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《725编号应用多元统计分析作业》由会员分享,可在线阅读,更多相关《725编号应用多元统计分析作业(15页珍藏版)》请在金锄头文库上搜索。

1、 多元统计分析 多元统计分析 实 验 报 告 实验课程名称实验课程名称 多元统计分析 实验项目实验项目名称 多元统计理论的计算机实现 年 级年 级 2013 2013 专 业专 业 应用统计学 应用统计学 学 生 姓 名 学 生 姓 名 侯杰 侯杰 成 绩成 绩 1 理 学 院理 学 院 实验时间: 2015 年 05 月 07 日 学生所在学院:理学院 专业:应用统计学 班级:9131137001 姓 名侯杰 学 号913113700124实验组 实 验 时 间 16.05.07指导教师李建军 实验项目名称多元统计理论的计算机实现 实验目的及要求:实验目的及要求: 目的:熟悉 R(或 SPS

2、S)软件,掌握多元统计分析中多元正态分布均值向量和协差阵的检验,判别方法,聚类 分析,主成分分析,因子分析,相应分析内容。 要求:程序要有注释,尽量体现多元统计分析多元正态分布均值向量和协差阵的检验,判别方法,聚类分析, 主成分分析,因子分析,相应分析内容内容的基本原理。 实验硬件及软件平台:实验硬件及软件平台: 计算机、 R、 网络 实验内容(包括实验具体内容、算法分析、源代码等等):实验内容(包括实验具体内容、算法分析、源代码等等): 指导教师意见:指导教师意见: 签名: 年 月 日 2 代码及运行结果分析代码及运行结果分析 1、均值检验、均值检验 问题重述:问题重述:某医生观察了 16

3、名正常人的 24 小时动态心电图,分析出早晨 3 小时各小时的低 频心电频谱值(LF)、高频心电频谱值(HF),数据见压缩包,试分析这两个指标的各次重复测定 均值向量是否有显著差异。 代码如下:代码如下: Tsq.test-function(data,alpha=0.05) data-as.matrix(read.table(ch37.csv,header=TRUE,sep=,) #读取数据 xdat-data,2:4; xbar-apply(xdat,2,mean); #计算 LF 指标的均值 ydat-data,5:7; ybar-apply(ydat,2,mean); #计算 HF 指标

4、数据 xcov-cov(xdat); #计算 LF 样本协差阵 ycov-cov(ydat); #计算 HF 样本协差阵 sinv-solve(xcov+ycov);#求逆矩阵 Tsq-(16+16-2)*t(sqrt(16*16/(16+16)*(xbar-ybar)%*%sinv%*%sqrt(16*16/(16+16)*(xbar-ybar); #计算 T 统计量 Fstat-(16+16-2)-3+1)/(16+16-2)*3)*Tsq; #计算 F 统计量 pvalue0.05) #结果输出 cat(均值向量不存在差异) else cat(均值向量存在差异); 运行结果及分析:运行结

5、果及分析: 通过运行程序,我们可以得到如下结果: Tsq.test() p 值= 1.632028e-14 均值向量存在差异 即 LF 与 HF 这两个指标的各次重复测定均值向量存在显著差异。 2、判别分析2、判别分析 问题重述:问题重述:银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定 3 是否给予贷款。可以根据贷款申请人的年龄()、受教育程度()、现在所从事工作的年数()、 未变更住址的年数()、收入()、负债收入比例()、信用卡债务()、其它债务()等来判断 其信用情况。数据见压缩包。根据样本资料分别用距离判别法、Bayes 判别法和 Fisher 判别法建 立判别

6、函数和判别规则。某客户的如上情况资料为(53,1,9,18,50,11.20,2.02,3.58), 对其进行信用好坏的判别。 代码如下:代码如下: #距离判别法 discrim.dist-function(x) data-read.csv(ch49.csv,header=T,sep=,); #读取数据 G1-data1:5,; G2-data6:10,; u1-apply(G1,2,mean); #计算信用好的样本数据均值 u2-apply(G2,2,mean); #计算信用不好的样本数据均值 s1-cov(G1); s2-cov(G2); s-s1+s2; xbar-(u1+u2)/2;

7、alpha-solve(s)%*%(u1-u2); #计算判别系数 alpha w=0) #结果输出 cat(该客户属于信用好的一类,n) else cat(该客户属于信用坏的一类,n) #费希尔判别法 fisher.test-function(x) data-read.csv(ch49.csv,header=T,sep=,); #读取数据 G1-data1:5,; G2-data6:10,; n1-nrow(G1); n2-nrow(G2); u1-apply(G1,2,mean); #计算信用好的一组的数据均值 u2-apply(G2,2,mean); #计算信用不好的一组的样本数据均值

8、s1-cov(G1); s2-cov(G2); E-s1+s2; B-n1*n2*(u1-u2)%*%t(u1-u2)/(n1+n1); alpha-eigen(solve(E)%*%B); vector-alpha$vectors,1; #提取费希尔判别函数系数 d1-abs(t(vector)%*%x-t(vector)%*%u1); #计算样本到第一组的费希尔判别函数值 4 d2-abs(t(vector)%*%x-t(vector)%*%u2); #计算样本到第二组的费希尔判别函数值 if(d1 x discrim.dist(x) 该客户属于信用好的一类 费希尔判别的运行结果: x f

9、isher.test(x) 该客户属于信用好的一类 从上面的运行结果可以看出该客户属于信用好的一类,即已履行还贷责任。 3、聚类分析3、聚类分析 问题重述:问题重述:下表(数据见压缩包)是某年我国 16 个地区农民支出情况的抽样调查数据,每个 地区调查了反映每人平均生活消费支出情况的六个经济指标。试使用系统聚类法和 K 均值法对这些 地区进行聚类分析,并对结果进行分析比较。 代码如下:代码如下: #系统聚类法 data-read.csv(ch58.csv,header=T,sep=,); #读取数据 Cludata-data,2:7; Dismatrix-dist(Cludata,method

10、=euclidean); #计算样本间的欧几里得距离 Clu1-hclust(d=Dismatrix,method=single); #最短距离法 Clu2-hclust(d=Dismatrix,method=complete); #最长距离法 Clu3-hclust(d=Dismatrix,method=centroid); #重心法 Clu4-hclust(d=Dismatrix,method=ward.D); #离差平方和法 #绘出四种方法情况下的谱系图和聚类情况 opar-par(mfrow=c(2,2); plot(Clu1,labels=data,1);re1-rect.hclus

11、t(Clu1,k=5,border=red);box(); 5 plot(Clu2,labels=data,1);re2-rect.hclust(Clu2,k=5,border=red);box(); plot(Clu3,labels=data,1);re3-rect.hclust(Clu3,k=5,border=red);box(); plot(Clu4,labels=data,1);re4-rect.hclust(Clu4,k=5,border=red);box(); par(opar); #绘出直观的分类情形 opar-par(mfrow=c(2,2),las=2); cut1-cutr

12、ee(Clu1,k=5); plot(cut1,pch=cut1,ylab=类别编号,xlab=省市,main=聚类的成员,axes=FALSE); axis(1,at=1:16,labels=data,1,cex.axis=0.6); axis(2,at=1:5,labels=1:5,cex.axis=0.6);box(); cut2-cutree(Clu2,k=5); plot(cut2,pch=cut2,ylab=类别编号,xlab=省市,main=聚类的成员,axes=FALSE); axis(1,at=1:16,labels=data,1,cex.axis=0.6); axis(2,

13、at=1:5,labels=1:5,cex.axis=0.6);box(); cut3-cutree(Clu3,k=5); plot(cut3,pch=cut3,ylab=类别编号,xlab=省市,main=聚类的成员,axes=FALSE); axis(1,at=1:16,labels=data,1,cex.axis=0.6); axis(2,at=1:5,labels=1:5,cex.axis=0.6);box(); cut4-cutree(Clu4,k=5); plot(cut4,pch=cut4,ylab=类别编号,xlab=省市,main=聚类的成员,axes=FALSE); axi

14、s(1,at=1:16,labels=data,1,cex.axis=0.6); axis(2,at=1:5,labels=1:5,cex.axis=0.6);box(); #K 均值聚类法 data-read.csv(ch58.csv,header=T,sep=,); #读取数据 Cludata-data,2:7; Cluk-kmeans(x=Cludata,centers=5,nstart=5); #用 K 均值聚类分成五类 par(mfrow=c(2,1),las=2); cluster-Cluk$cluster; #保存聚类解 plot(cluster,pch=cluster,ylab=类别编号,xlab=省市,main=聚类的成员,axes=FALSE); #绘制 各省市聚类解得序列图 axis(1,at=1:16,labels=data,1,cex.axis=0.6); axis(2,at=1:5,labels=1:5,cex.axis=0.6); box(); legend(topright,c(第一类,第二类,第三类,第四类,第五类),pch=1:5,cex=0.3); #绘制类中心变量取值折线图 plot(Cluk$centers1,ylim=c(0,82),xlab=聚类变量,ylab=组均值(类中心),main=各类聚类变

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 总结/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号