主成分因子聚类别

上传人:q****9 文档编号:178442575 上传时间:2021-04-04 格式:DOC 页数:23 大小:721KB
返回 下载 相关 举报
主成分因子聚类别_第1页
第1页 / 共23页
主成分因子聚类别_第2页
第2页 / 共23页
主成分因子聚类别_第3页
第3页 / 共23页
主成分因子聚类别_第4页
第4页 / 共23页
主成分因子聚类别_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《主成分因子聚类别》由会员分享,可在线阅读,更多相关《主成分因子聚类别(23页珍藏版)》请在金锄头文库上搜索。

1、目 录第十一章 多元统计分析3第一节 主成分分析3一、基本思想3二、数学模型4三、模型的求解5四、主成分的性质5五、基本步骤与应用实例5第二节 因子分析9一、基本思想9二、数学模型10三、因子载荷的统计含义10四、因子的求解11五、因子得分11六、基本步骤与应用实例11第三节 聚类分析13一、基本思想13二、统计量14三、分类方法(系统聚类法)14四、基本步骤与应用实例15第四节 判别分析19一、基本思想19二、基本方法19三、判别效果的评价20四、基本步骤与应用实例20习 题23第十一章 多元统计分析多元统计分析(multivariate statistical analysis)是研究多个

2、随机变量之间的相互依赖关系以及内在统计规律性的一门统计学科,是现代统计学应用十分活跃的一个分支。常用多元统计方法主要有:多元数据图表示法、主成分分析、因子分析、聚类分析、判别分析、对应分析、多元回归分析、典型相关分析、路径分析等。从某种意义上讲,多元分析是一些方法的“混合体”,我们难于给出其确切的概念和难于对其所有方法进行归类,但是它可以同时展示和处理异度量的多个变量间的各种关系,且不损失原有的信息量,所以多元统计分析方法成为进行深层次经济分析的一种有效工具。每一种方法都有丰富的内容,也涉及较多的数理统计知识。本章主要的目的是简要介绍一些常用多元统计方法的基本思路和方法,对于数理推导部分,有兴

3、趣的读者可参考相关专著。第一节 主成分分析在许多实际问题中,我们经常用多个变量来刻划某一事物,但由于这些变量之间往往具有相关性,很多变量带有重复信息,这样就给分析问题带来了很多不便,同时也使分析结论不具有真实性和可靠性,因此,人们希望寻找到少量几个综合变量来代替原来较多的变量,使这几个综合变量能较全面地反映原来多项变量的信息,同时相互之间不相关。主成分分析正是满足上述要求的一种处理多变量问题的方法。一、基本思想主成分分析就是设法将原来的p个指标重新组合成一组相互无关的新指标的过程。通常数学上的处理就是将原来的p个指标做线性组合。为了能更清晰的解释主成分的基本思想,我们从用两个指标来衡量n个样本

4、点的二维空间入手。在二维空间,n个样本点的变量信息若用离差平方和来表示,则变量的信息总量为总方差。对于每个变量的离差平方和,它们的取值可能出现各种情况:(1)如果离差平方和和之间相差悬殊,如取值之比为10:1,说明变量x1在方差总信息量中占较重要的地位,可剔除变量x2达到降维的目的;(2)如果和数值相差不大,说明两个指标在方差总信息量中的比重相当,统计分析时,两个指标都不可放弃,此时可对x1、x2作适当的变量替换,通过某方法寻找到两个新的变量y1、y2 (必须是原变量x1、x2的线性组合),使新变量满足:,(其中),上式说明新变量y继承了原变量x的全部信息,并且要求和数值比例相差较大,这时仅用

5、y1来分析原问题就可以了,变量的个数从2变为了1。此时的y1方差最大,包含的信息最多。y1称之为第一主成分,y2称为第二主成分。推而广之,第一主成分y1的方差达到最大,其方差越大,表示其所包含的信息越多。如果第一主成分还不能反映原指标的全部信息,再考虑选取第二主成分y2,y2在剩余的线性组合中方差最大,并且与y1不相关,如若第一、第二主成分仍然不能反映原变量的全部信息,再考虑选取第三主成分y3,y3在剩余的线性组合中方差最大,并且与y1、y2不相关,依此可求出全部p个主成分,它们的方差是依次递减的。在实际工作中,在不损失较多信息的情况下,通常选取前几个主成分来进行分析,达到简化数据结构的目的。

6、二、数学模型主成分分析可以针对总体,也可以针对样本,但在许多问题中所涉及的总体都是未知的,所以我们主要讨论样本的主成分。仍从二维空间入手,设有两个变量的信息如图11.1所示,大部分的样本点集中在椭圆范围内:图11.1 两个变量的信息分布如果我们取椭圆的长轴y1、短轴y2作为样本点新的坐标轴,容易看出y1坐标变化程度大,即y1的方差最大,而y2的变化程度相对较小,即y2的方差较小。于是可以说变量(x1,x2)的信息大部分集中在新变量y1上,而小部分集中在新变量y2上。上图中的新坐标y1,y2是x1,x2经过坐标旋转而得到的,其旋转公式为:系数满足的要求是:我们可以称y1为它们的第一主成分,y2为

7、它们的第二主成分,坐标的正交变换为主成分变换。推广开来,设有n个样本点,每个样本点都有p项变量x1,x2,xp,其原始数据矩阵表示为:其中xij是第i个样本点第j个指标的观测值。如前所述,通过主成分变换得到的线性组合可以表示为x1,x2,xp的线性组合: (11.1)如果系数uij满足;而且系数uij的确使yi、与yj(ij)相互无关,并使y1是x1,x2,xp的一切线性组合中方差最大者,y2是与y1不相关的x1,x2,xp的所有线性组合中方差最大者,yp是与y1,y2,yp-1都不相关的x1,x2,xp的所有线性组合中方差最大者,则称y1,y2,yp为原变量的第一,第二,第p主成分。三、模型

8、的求解要求原始变量的主成分,关键在于求公式(11.1)的系数值。在应用主成分分析研究问题时,通常先将数据标准化,以消除量纲对结果的影响。标准化的常用公式为:,标准化后的数据均值为0,方差为1。可以证明,变量x1,x2,xp标准化以后,其协方差矩阵S与相关系数矩阵R相等。为了求出主成分,只需求样本协方差矩阵S或相关系数矩阵R的特征根和特征向量就可以。设R的特征根12p0, 相应的单位特征向量为:(ui1 ui2 uip),那么相应的主成分就是:。四、主成分的性质以下我们不加证明地给出主成分的有关性质。性质1:第k个主成分yk的系数向量是第k个特征根k所对应的标准化特征向量Uk。性质2:第k个主成

9、分的方差为第k个特征根k,且任意两个主成分都是不相关的,也就是主成分y1,y2,yp的样本协方差矩阵是对角矩阵。性质3:样本主成分的总方差等于原变量样本的总方差。性质4:第k个样本主成分与第j个变量样本之间的相关系数为:该相关系数又称为因子载荷量。在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率取前k个。第k个主成分的方差贡献率为:,前k个主成分的累计方差贡献率为:。通常情况下,如果前k个主成分的累计贡献率达到85%,则表明取前k个主成分就能基本包含原指标中的信息了,从而达到减少变量个数的目的。另一种选择主成分个数的方法是选择大于1的特征根所对应的主成分。五、基本步骤与应用实例(一)

10、基本步骤(1)对原变量的样本数据矩阵进行标准化变换(2)求标准化数据矩阵的相关系数矩阵R(3)求R的特征根及相应的特征向量和贡献率等(4)确定主成分的个数(5)解释主成分的实际意义和作用(二)应用实例【例11.1】我国2001年各地区全部国有及规模以上非国有工业企业主要经济效益指标见表11.1,对各地区经济效益作出分析。表11.1 我国2001年各地区全部国有及规模以上非国有工业企业主要经济效益指标地区工业增加值率(%)x1总资产贡献率(%)x2资产负债率(%)x3流动资产周转次数x4成本费用利润率(%)x5劳动生产率(元/人年)x6产品销售率(%)x7北 京天 津河 北山 西内蒙古辽 宁吉

11、林黑龙江上 海江 苏浙 江安 徽福 建江 西山 东河 南湖 北湖 南广 东广 西海 南重 庆四 川贵 州云 南西 藏陕 西甘 肃青 海宁 夏新 疆27.9027.2836.4636.8038.0928.1528.1852.8029.2926.4826.4832.6734.2228.5132.6030.7733.7534.4831.2333.7025.9330.2531.6234.0655.3257.5637.0429.9830.7930.6245.025.228.128.125.416.097.368.2824.079.018.5810.847.3510.896.4011.707.397.46

12、9.6710.568.636.446.116.847.9920.9310.678.285.145.216.3212.8157.2358.8460.2862.5957.3759.4964.7255.8147.4859.7355.0460.9658.5267.5361.5465.0262.5866.4056.8969.6866.0863.8263.9368.2950.0425.4367.6365.8772.4760.9860.851.311.851.49.881.241.481.281.671.511.681.851.361.851.191.921.231.231.291.761.391.181.

13、071.07.831.37.591.071.08.581.161.782.636.805.492.492.314.676.2037.647.214.486.672.676.791.558.424.074.582.207.595.544.462.194.223.7111.5929.897.671.181.673.0715.8153987.9578191.2742629.8124413.5335129.8847955.6840141.0373120.46118816.1656044.8166785.2135674.3091263.7029123.4952621.2429296.8649374.62

14、38179.94120863.3444140.8958521.5036638.2035013.7532317.4296702.70103001.2438102.9734352.9251599.9833620.79118599.8298.1099.3598.9097.9799.0298.3798.8999.0799.4698.2698.2299.1197.8498.1198.3298.31101.2399.6197.9998.1694.9699.5498.9899.7199.0995.7898.0097.4797.3896.6598.73【解】计算过程如下:1. 将数据标准化,并求相关矩阵R地区工业增加值率(%) ZX1总资产贡献率(%)

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作范文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号