(2020年){统计套表模板}应用统计学用少数变量代表多个变量

上传人:精****库 文档编号:141046647 上传时间:2020-08-03 格式:PPTX 页数:48 大小:294.89KB
返回 下载 相关 举报
(2020年){统计套表模板}应用统计学用少数变量代表多个变量_第1页
第1页 / 共48页
(2020年){统计套表模板}应用统计学用少数变量代表多个变量_第2页
第2页 / 共48页
(2020年){统计套表模板}应用统计学用少数变量代表多个变量_第3页
第3页 / 共48页
(2020年){统计套表模板}应用统计学用少数变量代表多个变量_第4页
第4页 / 共48页
(2020年){统计套表模板}应用统计学用少数变量代表多个变量_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《(2020年){统计套表模板}应用统计学用少数变量代表多个变量》由会员分享,可在线阅读,更多相关《(2020年){统计套表模板}应用统计学用少数变量代表多个变量(48页珍藏版)》请在金锄头文库上搜索。

1、*,*,如果你要到裁缝店定做一件上衣,需要测量很多尺寸,譬如身长、袖长、胸围、腰围、肩宽、肩厚等。但服装厂要生产一批新型服装,却不可能完全按照每个人的这些尺寸来对型号进行划分,而是把各个方面进行高度概括,用少数几个指标作为分类的型号,简单明了的反映不同人群的体态特征。 日常生活中经常遇到包含很多变量的数据,比如各个地区的若干经济指标数据,上市公司财务报表公布的多项财务数据等等。 这些数据中的变量虽然很多,但往往相互之间都有着一定的关联,这使得只要找出少数几个“代表”就可以对复杂的信息进行比较完整的描述了。主成分分析和因子分析便是实现这一过程的两种方法。,*,第 8 章 用少数变量代表多个变量,

2、8.1 主成分分析 8.2 因子分析,*,在研究实际问题时,往往需要收集多个变量。但这样会使多个变量间存在较强的相关关系,即这些变量间存在较多的信息重复,直接利用它们进行分析,不但模型复杂,还会因为变量间存在多重共线性而引起较大的误差。 为能够充分利用数据,通常希望用较少的新变量代替原来较多的旧变量,同时要求这些新变量尽可能反映原变量的信息。 主成分分析和因子分子正是解决这类问题的有效方法。它们能够提取信息,使变量简化降维,从而使问题更加简单直观。,主成分分析和因子分析(Principal Component Analysis & Factor Analysis),*,8.1 主成分分析 8.

3、1.1 主成分分析的基本思想是什么? 8.1.2 如何选择主成分? 8.1.3 怎样解释主成分?,第 8 章 用少数变量代表多个变量,*,8.1.1 主成分分析的基本思想是什么?,8.1 主成分分析,*,主成分的概念由Karl Pearson在1901年提出 考察多个变量间相关性的一种多元统计方法 研究如何通过少数几个主成分来解释多个变量间的内部结构。即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。 主成分分析的目的:数据的压缩;数据的解释 它常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释。,什么是主成分分析?(Princi

4、pal Component Analysis),*,【例8.1】表8-1是北京市某高中50名学生的六门课程测试成绩数据 乍一看,很难从这六门课程的测试得分来评价这50名学生的成绩优劣,也很难分析这些学生的成绩分布特征。要解决这样的问题,自然希望能把这一数据中包含的六个变量概括成一两个综合变量。那么这一做法是否可行呢?提炼出来的少数变量能够代表原数据的多少信息?如何解释它们呢?我们首先来了解一下主成分分析的基本思想。 对于例8.1中的数据,每一个学生的观测值都包含了六个变量,所以表示在坐标系中每一个观测值就是六维空间中的一个点,每一维就代表一个变量。把六个变量概括成一两个综合变量,实质上就是一个

5、降维的过程。,主成分分析的基本思想是什么?, 表8-1 北京市某高中学生六门课程测试成绩数据,*,对于存在线性相关的两个变量,直接进行分析可能由于多重共线性而无法得出正确结论。 如何对这两个变量所携带的信息(在统计上信息往往是指数据的变异)进行浓缩处理? 分别用横轴和纵轴表示两个变量,每个观测值就是二维坐标系中的一个点,所有的数据点大致散布成一个椭圆形,那么这个椭圆有一个长轴和一个短轴,我们称之为主轴,主轴之间是相互垂直的。,主成分分析的基本思想是什么? (以两个变量为例),显然,短轴方向上,数据点之间的差异较小;长轴方向上,数据变化则较大。如果原坐标系中的横轴和纵轴能够分别与椭圆的长短轴平行

6、,那么相对来说,长轴所代表的变量就描述了数据的主要变化,短轴所代表的变量则描述了数据的次要变化。,*,现在沿椭圆的长轴设定一个新的坐标系,则新产生的两个变量和原始变量之间存在明显的数学换算关系。 但这两个变量彼此不相关,且信息量的分布显然不同。长轴变量携带了大部分数据变异的信息,而短轴变量只携带了一小部分变异信息。椭圆的长轴和短轴相差越大时,说明长轴方向所代表的变量包含原始信息越多,那么用这个新变量来代替原始的两个变量(即忽略包含少数信息的短轴变量)也就越合理,从而二维数据就可以降低为一维数据。 但现实数据往往并不满足这样的条件,这就需要把原始数据构成的坐标系进行旋转,产生一个新的坐标系,使得

7、新坐标系的横轴和纵轴与椭圆的长短轴平行,实质上也就是把原数据中的两个变量变换成两个新的变量。,主成分分析的基本思想是什么?,*,主成分分析的基本思想就是把原始数据构成的椭圆的主轴找出来,再用代表绝大部分信息的那个轴(也就是长轴)作为代替原始变量的新变量。多维变量降维过程类似。只要把原始数据散布的高维椭球的各个主轴找出来,选择最长的几个轴作为新变量,主成分分析就基本完成了。 作为椭圆(或椭球)的主轴,它们之间是相互垂直的,在代数上,这些新变量是原始变量的线性组合,叫作主成分(principal component)。 原始数据中有几个变量,它们构成的椭球就有几个主轴,也就意味着最终可以找到几个主

8、成分。,主成分分析的基本思想是什么?,*,降维的目的,是选择越少的主成分来代表原先的变量效果越好。 根据主成分分析的思想,选择的标准则是要求被选中的主成分所对应的主轴的长度之和能够占所有主轴长度总和的大部分。至于占到多少才足够具有代表性,并没有一个硬性的说法。 在实际中,如果数据中包含的变量之间相关性很差,降维也就很难实现,因为不相关的变量显然无法找到一个很好的共同的代表。所以具体选几个主成分,要视实际情况而定。 有些文献建议,所选的主轴总长度占所有主轴长度之和的大约85%即可,其实,这只是一个大体的说法,具体选几个,要看实际情况而定。,主成分分析的基本思想是什么?,*,数学上的处理是将p个指

9、标作线性组合,作为新的综合指标。 如果第一个线性组合,即第一个综合指标记为F1。自然希望F1中更多地反映原来指标的信息。 这里的“信息”是用F1的方差Var(F1)来表示。 Var(F1)越大,表示F1包含的信息越多。 在所有的线性组合中,所选的第1个主成分应该是方差最大的。 如果第1个主成分不足以代表原来p个指标的信息,再考虑选择第2个线性组合,即第2个主成分F2。依此类推,可以选出第3个,第4个,第p个主成分。这些主成分间互不相关,且方差递减。,主成分分析的数学模型,*,对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响。 根据标准化后的数据矩阵求出协方差矩阵 求出协方差矩阵的特征

10、根和特征向量 确定主成分,并对各主成分所包含的信息给予适当的解释。,主成分分析的步骤,*,8.1.2 如何选择主成分?,8.1 主成分分析,*,用SPSS实现主成分分析,第1步:选择【分析】下拉菜单,并选择【降维-因子分析 】选项进 入主对话框; 第2步:在主对话框中将原始数据中的所有变量选入【变量】; 第3步:点击【抽取】,在【输出】下选择【碎石图】,点击【继续】回到 主对话框; 第4步:点击【旋转】,在【输出】下选择【载荷图】,点击【继续】回到 主对话框,点击【确定】。, 用SPSS对例8.1实现主成分分析,*,如何选择主成分?,解:例8.1中的数据主成分分析的SPSS输出结果如下表,*,

11、表中的“初始特征根”对应的就是关于主成分的信息。 “初始特征根”下面的第一列“合计”即原始数据构成的高维椭球的六个主轴的长度,数学上又称之为特征值。 特征根可以看作是主成分影响力度的指标,代表引入该主成分后可以解释平均原始变量的信息。 如果特征根小于1,说明该主成分的解释力度还不如直接引入一个原始变量的平均解释力度大。因此可以用特征根大于1作为纳入标准。 第二列“方差的%”则是每个主轴长度占所有主轴长度总和(也就是所有特征值的总和,又叫总方差)的百分比。表明该主成分的方差占全部总方差的比重(也称为主成分的方差贡献率)。 第三列“方差%”分别对应的就是由大到小排列的前若干个主轴长度之和占所有主轴

12、长度总和的累积百分比(累计贡献率)。,如何选择主成分?,*,最长的主轴(即第一主成分)长度为3.729,它占六个主轴长度总和的62.164%;第二长的主轴(即第二主成分)长度为1.206,占所有主轴长度总和的20.096%。二者的长度之和累积起来则占到了所有主轴长度总和的82.242%。 后面四个主轴的长度在所有主轴长度总和中所占的比例相对较小,从而对代表原先六个变量的贡献越来越少。 因此在这里我们采用SPSS输出结果中所建议的(表中最右侧三列),对例8.1的数据选择头两个主成分。,如何选择主成分?,*,SPSS还提供了一个更为直观的图形工具来帮助选择主成分,即碎石图(Scree Plot)

13、从碎石图中可以直观的看到例8.1中六个主轴长度变化的趋势。实践中,通常结合具体情况,选择碎石图中变化趋势出现拐点的前几个主成分作为原先变量的代表,在该例中选择前两个主成分即可。,如何选择主成分?,*,8.1.3 怎样解释主成分?,8.1 主成分分析,*,寻找主成分的过程实质上就是寻找椭球主轴的过程,而这些主轴所代表的新变量在代数上是原始变量的线性组合(坐标旋转)。SPSS同样可以自动输出关于这些组合的计算结果。下表即例8.1的主成分载荷矩阵。,怎样解释主成分?,*,输出结果“成分矩阵”中的每一列分别给出了所选择的每一个主成分作为原始变量线性组合的系数。 如果我们分别用 表示原始数据中的六门课程

14、成绩,而用 表示六个主成分,那么根据表中给出的结果,我们选择的头两个主成分与原先六个变量的关系如下:,怎样解释主成分?,*,主成分对应原始变量的每一个系数实质上就是主成分与原先每一个变量之间的线性相关系数,称为主成分载荷(Loading)。 理论上而言,相关系数(绝对值)越大,说明主成分与该变量之间的线性相关关系越强,从而主成分对该变量的代表性也就越大。 例8.1中提取的第一主成分与原先六个变量之间的相关系数都较大(与“物理”的相关系数相对偏低),说明它可以充分的解释原先的所有变量。而第二主成分只与原始数据中的“物理”有较大的相关关系,与其他变量的相关系数均较小,这可能是由于“物理”这门课程与

15、其他课程性质上较大的区别所导致的。,怎样解释主成分?,*,对于提取两个主成分的情形,SPSS还提供了一张二维图来直观显示它们对原始变量的解释情况 图中把原先的每一个变量与提取的两个主成分之间的相关系数分别作为坐标系中两个方向的坐标值,这样每一个变量对应的主成分载荷就对应坐标系中的一个点,因此人们把这种图形称为载荷图(Loading Plot),怎样解释主成分?,*,实际中,主成分分析的一个重要应用则在于利用主成分与原始变量之间的线性关系,可以根据每一个观测对象各个变量的原始取值,计算出其所对应的各个主成分的值。 这样便可以按照少数几个主成分的数值,简单明了的分析研究对象的状况,从而解决对包含多

16、个复杂变量的数据进行排序、评价等问题。 比如例8.1,我们就可以把每个学生的六门课程测试成绩的数据转换成两个主成分的值,然后再按照它们的大小对各个学生的成绩进行比较。,怎样解释主成分?,*,案例分析中国上市公司财务绩效综合评价,1、案例背景 上市公司的财务绩效是指上市公司在一定期间的盈利能力、资产质量、经营增长等方面的有关信息。了解了不同上市公司的财务绩效,有利于投资者等信息使用者据以评价企业盈利能力、预测企业成长潜力、进而做出更加准确的相关经济决策。,*,案例分析,2、案例分析指标设定与数据来源 (1)指标设定。绩效评价要依靠财务指标,而财务指标企业总结和评价财务状况和经营成果的相对指标。因此我们选择了对于上市公司来说具有意义的指标:每股收益(x1)、每股营业利润(x2)、每股息税前利润(x3)、每股未分配利润(x4)、资产报酬率(x5)和资产净利率(x6)销售净利率(x7)、营业利润率(x8);成本费用率(x9) (2)案例数据,*,案例分析,3、案例拟解决的问题 试建立上市公司经营绩效评

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 企业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号