统计软件课程设计

上传人:飞*** 文档编号:35380805 上传时间:2018-03-15 格式:PDF 页数:12 大小:186.15KB
返回 下载 相关 举报
统计软件课程设计_第1页
第1页 / 共12页
统计软件课程设计_第2页
第2页 / 共12页
统计软件课程设计_第3页
第3页 / 共12页
统计软件课程设计_第4页
第4页 / 共12页
统计软件课程设计_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《统计软件课程设计》由会员分享,可在线阅读,更多相关《统计软件课程设计(12页珍藏版)》请在金锄头文库上搜索。

1、东北大学秦皇岛分校统计软件课程设计报告鸢尾花亚属类型的判别分析学院数 学 与 统 计 学 院专业数 学 与 应 用 数 学学号5122121 姓名殷 晓 娟指导教师马 世 美张 子 选成绩教师评语:指 导教 师 签 字:2014 年 7 月 6 日数 学 与 统 计 学 院 课 程 设 计 报 告第1页1 绪 论1.1 课题的背景鸢尾花为法国的国花,是一类具有较高观赏价值的多年生草本植物。鸢尾属花卉属于鸢尾科, setosa 、versicolor 和 virginica 是三种有名的鸢尾花。1935 年,埃德加 安德森( EdgarAnderson) 从 加 拿 大 加 斯 帕 半 岛 上

2、的 鸢 尾 属 花 朵 中 提 取 的 地 理 变 异数 据(Anderson,E.,1935) ,并在统计学上形成了一类多重变量分析的Fisher 鸢尾花数据集。每个样本含有四个特征,它们分别是花萼和花瓣的长度和宽度,这些特征可被用作样本的定量分析。基于这四个特征的集合,罗纳德 费雪( RonaldAylmerFisher)作为判别分析的一个例子,发展了一个线性判别分析以确定其属种(Fisher,R.A,1936) 。由此,该数据集被广泛运用到统计学中。1.2 SAS 简介SAS(Statistics Analysis System) 是世界上最著名的统计分析系统之一,具有完备的数据访问、管

3、理、分析和呈现功能,被誉为国际标准统计分析系统。1966年它最初由美国北卡罗莱纳州立大学 (North Carolina State University)的两位生物统计学研究生编制而成。1976 年正式成立 SAS 软件研究所,开始SAS 系统的开发、维护、销售和培训工作,真正实现了这一软件的商业化。SAS 内含 30 余个模块,功能上覆盖了包括医药、金融等各行各业数据管理和数据分析的各个应用领域。就常见的统计分析任务而言备选的一个专门模块是SAS/STAT。它主要包括:方差分析、回归分析、属性数据分析、非参数分析、多变量分析、判别分析、聚类分析、生存分析、得分方法等近70 个过程,从而组成

4、了一个庞大而完整的统计方法集2。1.3 判别分析法简述判别分析是用于判断样品所属类型的一种统计分析方法。在生产、科研和日常生活中经常遇到如何根据观测到的数据资料对所研究的对象进行判别归类的问题。判别分析是应用性很强的一种多元统计方法,已渗透到各个领域。常用的判别分析方法有距离判别法、贝叶斯判别法和费希尔判别法。1.3.1 距离判别法马氏距离:设总体G 为 m 维总体 (考察 m 个指标 ),均值向量为,2,1m,协数 学 与 统 计 学 院 课 程 设 计 报 告第2页 方差阵为 =(ij ),则样品 X=(x1,x2, ,xm )与总体 G 的马氏距离定义为)()(),(12XXGXd分别计

5、算样品 X 到两个总体的距离d21(X)和 d22(X) (或记为 d2(X,G1)和 d2(X,G2) ),并按距离最近准则判别归类,即判别准则为:判X G1 , 当 d2(X,G1) d2(X,G2)时;待判 , 当 d2(X,G1) = d2(X,G2)时。1.3.2 贝叶斯判别法贝叶斯的统计思想总是假定对所研究的对象已有一定的认识,常用先验概率分布来描述这种认识.然后我们抽取一个样本,用样本来修正已有的认识(先验概率分布 ),得到后验概率分布。各种统计推断都通过后验概率分布来进行.将贝叶斯思想用于判别分析就得到贝叶斯判别法。贝叶斯判别准则主要有两种:1按后验概率最大进行归类:X 属于第

6、 t 组的后验概率为kiilxDxDXtP122)5 .0exp()5. 0exp()(在正态假设下按后验概率最大进行归类的准则,等价于按广义平方距离最小准则进行归类。2按错判平均损失最小进行归类:设有k 个总体 : kGGG,21,已知iG的联合密度函 数 为)(Xfi, 先 验 概 率 为iq(i=1,k), 错 判 损 失 为L(j|i) 。 则 贝 叶 斯 判 别 的 解,* 2* 1* kDDDD为:), 2, 1(, 2, 1,),()(*ktkjtjXhXhXDtll,其中kiiitXfitLqXh1)()|()(1.3.3 费希尔判别法费希尔判别的基本思想是投影.将 k 组 m

7、 维数据投影到某一个方向 ,使得投影后组与组之间尽可能地分开。而衡量组与组之间是否分开的方法借助于一元方差分析的思想,利用方差分析的思想来导出判别函数。费希尔判别准则下线性判别函数u(X)=aX 的解 a为特征方程01IBA的最大特征根1所对应的满足111All的特征向量 l1;且相应的判别效率 (1l )=11。1.4 课题研究目的依据鸢尾花亚属中典型个体的不同性状特征(花萼和花瓣的长度和宽度),对未知鸢数 学 与 统 计 学 院 课 程 设 计 报 告第3页 尾花个体进行所属类型的判别分析,以探究距离判别法在鸢尾属的分类中应用。2 鸢尾花亚属类型的判别分析2.1 判别分析过程各取 seto

8、sa 、versicolor 和 virginica 三种鸢尾花各45 个,通过三种判别分析法分别建立判别准则,然后对剩余的15 个研究对象进行判别归类 , 数据见参考文献 3。2.1.1 距离判别法的实现data dywh; input x1-x4 group $; cards; 5.1 3.5 1.4 0.2 Iris-setosa 4.9 3.0 1.4 0.2 Iris-setosa 4.7 3.2 1.3 0.2 Iris-setosa 5.1 3.8 1.9 0.4 . 5.7 2.9 4.2 1.3 . 4.8 3.0 1.4 0.3 . 6.7 3.0 5.2 2.3 . 6.

9、3 2.5 5.0 1.9 . 6.5 3.0 5.2 2.0 . 4.6 3.2 1.4 0.2 . 6.2 2.9 4.3 1.3 . 5.3 3.7 1.5 0.2 . 5.0 3.3 1.4 0.2 . 5.7 3.0 4.2 1.2 . 5.1 2.5 3.0 1.1 . 5.9 3.0 5.1 1.8 . 6.2 3.4 5.4 2.3 . 5.1 3.8 1.6 0.2 . options ps=60 ls=75; procprint data=dywh; run; procdiscrim data=dywh simple wcov pcov 数 学 与 统 计 学 院 课 程

10、设 计 报 告第4页 wsscp psscp distance list; class group; var x1-x4; run; 2.1.2 贝叶斯判别法的实现data dywh; input x1-x4 group $; cards; 5.1 3.5 1.4 0.2 Iris-setosa 4.9 3.0 1.4 0.2 Iris-setosa 4.7 3.2 1.3 0.2 Iris-setosa 5.1 3.8 1.9 0.4 . 5.7 2.9 4.2 1.3 . 4.8 3.0 1.4 0.3 . 6.7 3.0 5.2 2.3 . 6.3 2.5 5.0 1.9 . 6.5 3

11、.0 5.2 2.0 . 4.6 3.2 1.4 0.2 . 6.2 2.9 4.3 1.3 . 5.3 3.7 1.5 0.2 . 5.0 3.3 1.4 0.2 . 5.7 3.0 4.2 1.2 . 5.1 2.5 3.0 1.1 . 5.9 3.0 5.1 1.8 . 6.2 3.4 5.4 2.3 . 5.1 3.8 1.6 0.2 . procdiscrim data=dywh pool=no distance list; class group; * priors 1=0.33333 2=0.33333 3=0.33333; var x1-x4; run; quit; 2.1.3

12、 费希尔判别法的实现数 学 与 统 计 学 院 课 程 设 计 报 告第5页 data dywh; input x1-x4 group $; cards; 5.1 3.5 1.4 0.2 Iris-setosa 4.9 3.0 1.4 0.2 Iris-setosa 4.7 3.2 1.3 0.2 Iris-setosa 5.1 3.8 1.9 0.4 . 5.7 2.9 4.2 1.3 . 4.8 3.0 1.4 0.3 . 6.7 3.0 5.2 2.3 . 6.3 2.5 5.0 1.9 . 6.5 3.0 5.2 2.0 . 4.6 3.2 1.4 0.2 . 6.2 2.9 4.3

13、1.3 . 5.3 3.7 1.5 0.2 . 5.0 3.3 1.4 0.2 . 5.7 3.0 4.2 1.2 . 5.1 2.5 3.0 1.1 . 5.9 3.0 5.1 1.8 . 6.2 3.4 5.4 2.3 . 5.1 3.8 1.6 0.2 . proccandisc data=dywh out=canywh1 ncan=2 distance simple; class group; var x1-x4; run; goptions ftext=宋体; symbol1 cv=red v=square h= 2; symbol2 cv=blue v=star h=2; symb

14、ol3 cv=green v=dot h=2; procgplot data=canywh1; plot can2*can1 = group; run; procprint data=canywh1; 数 学 与 统 计 学 院 课 程 设 计 报 告第6页 run; procdiscrim data=canywh1 distance list; class group; var can1 can2; run; procdiscrim data=canywh1 pool=test distance list; class group; var can1 can2; run; quit; 2.2

15、 判别结果分析2.2.1 距离判别法结果分析1合并样本组内离差阵和合并样本协方差阵Pooled Within-Class SSCP Matrix Variable x1 x2 x3 x4 x1 36.91333333 13.27444444 22.80244444 5.31577778 x2 13.27444444 16.00311111 7.53333333 4.75155556 x3 22.80244444 7.53333333 24.65911111 5.91200000 x4 5.31577778 4.75155556 5.91200000 5.87288889 Pooled With

16、in-Class Covariance Matrix, DF = 132 Variable x1 x2 x3 x4 x1 0.2796464646 0.1005639731 0.1727457912 0.0402710438 x2 0.1005639731 0.1212356902 0.0570707071 0.0359966330 x3 0.1727457912 0.0570707071 0.1868114478 0.0447878788 x4 0.0402710438 0.0359966330 0.0447878788 0.044491582 产生的合并样本协方差阵用来计算马氏距离。2三个亚属间的马氏距离Squared Distance to group From group Iris-set Iris-ver Iris-vir Iris-set 0 88.70237 175.34029 Iris-ver 88.70237 0 16.30151 Iris-vir

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号