《多元统计分析2》ppt课件

上传人:tia****nde 文档编号:71363326 上传时间:2019-01-20 格式:PPT 页数:27 大小:354.31KB
返回 下载 相关 举报
《多元统计分析2》ppt课件_第1页
第1页 / 共27页
《多元统计分析2》ppt课件_第2页
第2页 / 共27页
《多元统计分析2》ppt课件_第3页
第3页 / 共27页
《多元统计分析2》ppt课件_第4页
第4页 / 共27页
《多元统计分析2》ppt课件_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《《多元统计分析2》ppt课件》由会员分享,可在线阅读,更多相关《《多元统计分析2》ppt课件(27页珍藏版)》请在金锄头文库上搜索。

1、第篇 多元统计分析,第章 主成分分析,基本概念 科学研究所涉及的课题往往比较复杂,是因为影响客观事物的因素多,需要考察的变量多。比如说,对于糖尿病、动脉硬化等疾病,其病因是多种多样的,收集的资料中包含的信息是丰富多彩的。然而,重叠的、低质量的信息越多,越不利于医生作出诊断。在大部分实际问题中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。1933年,Hotelling提出的主成分分析法正是实现这一目的的有效途径之一。,何为主成分?简而言之,主成分实际上就是由原变量X1Xm线性组合出来的个互不相关、且未丢失任何信息的新变量,也称为综合

2、变量。多指标的主成分分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地揭示事物内在的规律。,数据结构,表6.1.1 主成分分析的数据结构 适合用主成分分析的数据具有左边的结构 ,见表6.1.1。 编号 X1 X2 X3 X4 Xm 若原始数据或变换的结果是各行数据 之和为100,则称为合成资料,用非线性 1 3.8 3.7 0.5 5.3 4.8 主成分分析法。 2 8.6 5.0 1.3 9.8 2.1 值得注意的是:适合作主成分分析的 资料,也适合作因子分析、对应分析、 n 4.6 2.1 1.4 7.3 6.3 聚类分析 ,何时应选择什么法,主

3、要取决 于研究目的和对结果的要求。 每个Xi都是定量指标,主成分的表达式与性质, Z1=a11(X1-X-1)+a12(X2-X-2)+a1m(Xm-X-m) Z2=a21(X1-X-1)+a22(X2-X-2)+a2m(Xm-X-m) (1) Zm=am1(X1-X-1)+am2(X2-X-2)+amm(Xm-X-m) Z1=b11x1+b12x2+b1mxm Z2=b21x1+b22x2+b2mxm (2) Zm=bm1x1+bm2x2+bmmxm, Z1=c11x1+c12x2+c1mxm Z2=c21x1+c22x2+c2mxm (3) Zm=cm1x1+cm2x2+cmmxm x1=

4、c11Z1+c21Z2+cm1Zm x2=c12Z1+c22Z2+cm2Zm (4) xm=c1mZ1+c2mZ2+cmmZm,第章 因子分析,第节 基本概念 学生的各科成绩受智力、计算能力、表达能力和灵活性等因子的影响, 可以通过考试或检查等手段获得学生的各科成绩, 但那些对各科成绩起支配作用的因子的状态不能直接测定到; 又如,考虑项生理指标收缩压、舒张压、心跳间隔、呼吸间隔和舌下温度,从生理知识知道这项指标是受植物神经的交感神经和副交感神经支配的,而这种神经的状态也不能直接测定出来。,因子分析(Factor Analysis)就是要找出某个问题中可直接测量的、具有一定相关性的诸指标,如何受

5、少数几个在专业上有意义,又可直接测量到,且相对独立的因子支配的规律,从而可用诸指标的测定值来间接确定诸因子的状态。,第节 因子模型,初始因子模型 x1=a11F1+a1pFp+C1U1 xm=am1F1+ampFp+CmUm,旋转后的因子模型,xi=bijGj+CiUi (i=1,2,m;j=1,2,p;pm),因子得分模型,Gj=dijxi (i=1,2,m;j=1,2,p;pm)。,第章 对应分析,第节 方法的概述 主成分分析、因子分析、变量聚类分析都是研究变量之间的相互关系。有时,在某些实际问题中,既要研究变量之间的关系、还要研究样品之间的关系。不仅如此,人们往往还希望能在同一个直角坐标

6、系内同时表达出变量与样品两者之间的相互关系。实现这一目的的方法,称为对应分析。,对应分析,也称相应分析,它是列联表资料的加权主成分分析,用它去寻求列联表的行列变量之间联系的低维图示法。此法的关键是利用一种数据变换法,使含有n个样品m个变量的原始数据矩阵X=(x)nm变成另一个矩阵Z=(z)nm,并使R=ZZ(分析变量之间关系的协方差矩阵)与Q=ZZ(分析样品之间关系的协方差矩阵)具有相同的非零特征根,它们相应的特征向量之间也有密切的关系。对协方差矩阵R、Q进行加权主成分分析或因子分析,分别能提取两个最重要的公因子R1、R2与Q1、Q2。于是可将(R1,Q1)和(R2,Q2)两组数据点在由(di

7、m1,dim2)组成的同一个直角坐标系中。这样,便于考察变量与样品之间的相互关系。,第节 对应分析中的变量变换法,设原始数据矩阵X=(xij)nm,i=1,2,n(n为样品数);j=1,2,m(m为变量数)。又设xi.为第i行的合计、x.j为第j列的合计、x为全部数据的合计,则变量变换的公式为: zij(xij-xi.x.jx)/sqr(xi.x.j) 由此变换产生出矩阵Z,即Z=(zij)nm。分别对R=ZZ与Q=ZZ进行加权主成分分析或因子分析,就实现了对应分析。 从这种变换可以看出:原始数据xij并非一定是频数,也可以是正实数。这说明对应分析可以处理RC列联表资料,也可处理适合作主成分分

8、析、因子分析、聚类分析的资料。,第章 聚类分析,第节 方法的概述 聚类分析(Cluster Analysis)是物以类聚的一种统计分析法。用于对事物类别的面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。 聚类分析可分为对变量聚类(如在儿童的生长发育研究中,把以形态学为主的指标归于一类,以机能为主的指标归于另一类等)和对样品聚类(如解剖学上依据骨骼的形状和大小等,不仅可以区别样品是人还是猿,还可以区别性别、年龄等)。,聚类法大致可归纳如下: 系统聚类法 先将个元素(样品或变量)看成类,然后将性质最接近(或相似程度最大)的类合并为一个新类,得到n-1类,再从中找出最接近的类加

9、以合并变成了n-2类,如此下去,最后所有的元素全聚在一类之中。 分解法 其程序与系统聚类相反。首先所有的元素均在一类,然后用某种最优准则将它分成类,再用同样准则将这类各自试图分裂为类,从中选个使目标函数较好者,这样由类变成了类。如此下去,一直分裂到每类中只有个元素为止,有时即使是同一种聚类法,因聚类形式(即距离的定义法)不同而有不同的停止规则。,动态聚类法 开始将个元素粗糙地分成若干类,然后用某种最优准则进行调整,一次又一次地调整,直至不能调整了为止。 有序样品的聚类 个样品按某种因素(时间或年龄或地层深度等)排成次序,要求必须是次序相邻的样品才能聚在一类。 其他还有加入法、有重叠的类、模糊聚

10、类等。,聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量,然后根据这种统计量把元素分成若干类。常用的聚类统计量有距离系数和相似系数类。距离系数一般用于对样品分类,而相似系数一般用于对变量聚类。距离的定义很多,如极端距离、明考斯基距离、欧氏距离、切比雪夫距离等。相似系数有相关系数、夹角余弦、列联系数等。,用VARCLUS过程实现变量聚类分析 用CLUSTER过程实现样品聚类分析 用FASTCLUS过程进行大样本样品聚类分析 用ACECLUS过程对需作样品聚类分析的资料进行预处理,第章 判别分析,判别分析(Discriminatory Analysis)的任务是根据已掌握的批分类明确的样

11、品,建立较好的判别函数,使产生错判的事例最少,进而对给定的个新样品,判断它来自哪个总体。 根据资料的性质,分为定性资料的判别分析和定量资料的判别分析;采用不同的判别准则,又有费歇、贝叶斯、距离等判别法。,费歇(FISHER)判别思想是投影,使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小,而不同类间的投影值所形成的类间离差尽可能大。,贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。所谓先验概率,就是用概率来描述人们事先对所研究的对象的

12、认识的程度;所谓后验概率,就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果。,距离判别思想是根据各样品与各母体之间的距离远近作出判别。即根据资料建立关于各母体的距离判别函数式,将各样品数据逐一代入计算,得出各样品与各母体之间的距离值,判样品属于距离值最小的那个母体。,定性资料的判别分析 定量资料的逐步判别分析(考虑变量筛选) 一般判别分析(不考虑变量筛选),第章 典型相关分析,研究组变量之间的相关性,是许多实际问题的需要。例如,研究病人的各种临床症状(X1、 、Xp)与所患各种疾病(Y1、 、Yq)之间的相关性;研究原料的主要质量指标(X1、 、Xp) 与

13、其相应产品的主要质量指标(Y1、 、Yq)之间的相关性;研究居民的营养状况的一组指标(X1、 、Xp)与其健康状况的另一组指标(Y1、 、Yq)之间的相关性等等。当时,就是个变量之间的简单相关分析问题;当、时,就是个因变量与多个自变量之间的多元相关分析问题;当、均大于时,就是研究组多变量之间的相关性,称为典型相关分析(Canonical Correlation Analysis)。,利用主成分的思想,可以把多个变量之间的相关化为两个变量之间的相关。就是找组系数A(a1、 、ap)及B(b1、 、bq),使得新变量 V1=a1X1+apXpAX 与 W1=b1Y1+bqYqBY 之间有最大可能的相关系数, 称(V1, W1)为第对典型相关变量, 它们之间的相关系数(V1,W1)简记为1;同理,可求得第、第、 、第K(K小于等于, 中较小者)对典型相关变量以及与之对应的相关系数2、 、k。,各对典型相关变量所包括的相关信息互不交叉,且满足: 12k; (Vi,Vj)=, (Wi,Wj)=, (Vi,Wj)= ( ij ); 各Vi和Wi的均数都为,方差都为。 求出典型变量对和典型相关系数后,把具有显著意义的典型相关系数所对应的典型变量对保留下来,并给予合理的解释,是典型相关分析作得好坏的关键。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号