第十四讲多元相关教学提纲

上传人:yuzo****123 文档编号:137414071 上传时间:2020-07-08 格式:PPT 页数:28 大小:530KB
返回 下载 相关 举报
第十四讲多元相关教学提纲_第1页
第1页 / 共28页
第十四讲多元相关教学提纲_第2页
第2页 / 共28页
第十四讲多元相关教学提纲_第3页
第3页 / 共28页
第十四讲多元相关教学提纲_第4页
第4页 / 共28页
第十四讲多元相关教学提纲_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《第十四讲多元相关教学提纲》由会员分享,可在线阅读,更多相关《第十四讲多元相关教学提纲(28页珍藏版)》请在金锄头文库上搜索。

1、第十四讲 多元相关,一、主成分分析,二、因子分析,三、典型相关分析,方法。所研究的问题是:设有某个 维总体,一、主成分分析,主成分分析是一种将多个指标化为少数几个,指标以便揭示问题背后隐藏深层次原因的统计,每个样品都测得 个指标,而这 个指标往往互,有影响。能否将这 个指标综合成很少几个综合,性指标(或特征),要求这几个综合既能尽可能充,分反映原来 个指标的信息,且彼此间互不相,关。,(一),从 个指标求主元的方法,设 为 维随机向量,,那么如何将这 个指,标综合成很少的几个指标,且要尽可能反映原来指标的作用,又彼此不相,关呢?一个自然的方法是寻找指标,线性组合(线性变换)。我们先来考虑第一个

2、总,合指标 ,,令,其中 是待定的常向量。现在的任务是选取适,当 的使得 最大限度地反映原来指标的作用,,这就相当于要求 要有尽可能大的方差,即选,取 使得,尽可能地大。,从而问题变为:在 的条件下,求使,达到最大的 。,定理19.1,设总体 的均值和协方差阵分别为,是总体 的 个指标,令,其中 ,则使得 的方差,和,达到最大的 正好是矩阵 的最大特征根 所,对应的特征向量。,证明,用Lagrange乘数法来证明。令,则有,令,可得,这样就有,由于,根据克莱姆法则知,上述齐次线性,方程有非零解的充要条件是系数行列式为零,,即,这说明 是矩阵 的特征根,且由 可知,是对应于 特征根 的特征向量。

3、,又由,可知欲使 的方差 最大,只要取,为的最大特征根即可,这样 就是对应的单,位特征向量。,由定理19.1可知,第一个综合指标为,其中 是的对应于矩阵 最大特征值 的单位,特征向量,称 为第一主成分(或第一主元)。,若协方差矩阵 即是非负定的,由矩阵论,知它有 个非负的特征根,不妨设为,且 是对应的 个特征向量。,自然 应为 的第二大特征根 所对应的单位,特征向量,并称 为第二主成分。,类似地,第二个综合指标可以取为,重复以上过程,可得 的第 个综合指标,称为 的第 个主成分。,总之,我们可得到 个主成分,且,其中 是协方差阵 的非零特征根并,有,而 是,对应的单位特征向量。,若用矩阵可表示

4、如下,其中,且,即矩阵 是行正交矩阵。,因此,所谓的主成分分析也可以看作是对,原来的 个指标 进行了一次正交变,换,而得到 个互不相关的综合指标,即主,成分,这样关于寻找总体 的综合指标主成分,的问题就转化为求 的协方差矩阵 的特征值,和标准正交特征向量的问题,归纳为如下几个,步骤:,1.,求 的协方差阵 的特征值,记为,2.,求 对应的单位特征向量,且要求正交。,3.,获得第 个主成分,注:若 ,则可得到 的 个主成分;当,有重特征值时,主成分不唯一。实际应用时,到底应取多少个主成分作为分析问题的综合指,标的问题留在后面讨论。,在实际应用时,经常会遇到 个指标的量,纲不尽相同或取值彼此差异很

5、大的问题,处理,的一般方法是先将各指标进行标准化,即,其中,的协方差阵为,但应注意这时,即为相关矩阵,其中,因此求 的主成分就是求 的特征值和相应,的单位特征向量,然后可得 的分量的线性,组合,即为所求的主成分。,协方差阵 和相关矩阵 往往是未知的。这时,在实际问题中,所研究的总体 的均值,需对总体进行抽样,设样本为,取 和 的估计分别为,样本均值,(二),样本主成分,样本相关矩阵,设 的特征值为,对应的单位特征向量为,则称,为 的第 个样本主成分。,样本协方差阵,同样地,若记 的特征值为,对应的单位特征向量为,则称,为 标准化变量的第 个样本主成分,其中,对于样本,可以得到相应的主,成分的样

6、本,为了区别起见,将这小节的主成分统称为,样本主成分;而上一小节的主成分统称为总体,主成分。,(二),贡献率和主成分的解释,构造综合指标的目的是想用尽可能少的主,成分,来代替原有的 个指标,,且能对原始资料所具有的意义做出合理的解释。,那么到底应该选择多少主成分才合理呢?下面,就来讨论总体主成分个数的选取问题,对样本,主成分也有类似的分析。,设 维总体 的协方差阵为,的第 个主成分为,由于这些主成分 时互不相关的,因,此有,这说明 的“总方差” (即个分量的方差之和),等于 个互不相关的随机变量 的方,差之和,其中 具有最大的方差 ,,次之且,有方差,具有最小方差,这样主成,分依次集中了 各分

7、量的变化的主要部分,第,一主成分 的方差最大,即是以变化最大的方,向向量为系数所得到的线性函数作为,比值,表明了方差 在“全部方差”中所占的比重,,显,然这个比值越大,表明 这个变量“综合”原始,资料 的能力越强。通常称这个比值,为第一主成分的贡献率。类似地称,为第 个主成分的贡献率。而称,为前 个主成分的累计贡献率。,这就是说,贡献率约达,则对应的主成分,反映 的能力就越强,反之则弱。因此,在实,用常常略去那些贡献率小的主成分。经验指出:,一般只要前 个主成分的累计贡献率超过85%,就足够了。这样就可以用前 个不相关的主成,分 的变化来刻画 的 个相关分量,的变化,即就是说可以用低维指标,来反映高维指标,的变化特性。,例子参见P340.,例,某还海湾地区生物和地理环境之间的关系,分析,在某海湾地区设置了274块地,调查了8,个环境变量和7个物种。环境变量的选择是根据,预备调查资料分析而确定的,变量名称和物种,名称如表所示。由于量纲不同,现将它们进行,标准化。,某海湾地区环境与物种关系调查因子表,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号