多元统计分析——对应分析ppt课件

资源描述

《多元统计分析——对应分析ppt课件》由会员分享，可在线阅读，更多相关《多元统计分析——对应分析ppt课件（37页珍藏版）》请在金锄头文库上搜索。

1、第7章对应分析CorrespondenceAnalysis 7 1列联表及列联表分析7 2对应分析 7 1列联表及列联表分析一列联表及其作用1 列联表是观测数据按两个或更多属性变量定类尺度或定序尺度分类时所列出的频数表 2 列联表用于考察两个或多个分类变量的统计学关联如行变量与列变量之间的关联性一般若总体中的个体可按两个属性A与B分类 A有n类A1 A2 An B有p类B1 B2 Bp 属于Ai和Bj的个体数目为nij i 1 2 n j 1 2 p nij称为频数则可形成n p的二维列联表简称n p表若所考虑的属性多于两个也可按类似的方式作出列联表称为多维列联表

2、列联表频率意义上的列联表列联表独立性检验对于数值型变量相关关系通常是计算相关系数和进行回归分析描述两个定性变量之间的相关性是指广义的相关性称为关联性两个定性变量的关联程度在某种意义上就是指的不独立它与独立的情形差距越大就表明彼此的关系越密切这种关系不一定是线性关系在实际问题中重要的是判断变量之间是否独立因为不独立就意味着关联最常用的检验办法是列联表独立性检验列联表检验的零假设是两变量X和Y相互独立计算一个卡方统计量与列联表中频数取值和零假设下期望取值之差有关当卡方很大时否定零假设例吸烟与慢性支气管炎调查表为了探讨吸烟与慢性支气管炎有无关系调查了339

3、人情况如表所示设想有两个随机变量A B A 1表示吸烟 2表示不吸烟 B 1表示患慢性支气管炎 2表示未患零假设为 H0 A与B相互独立 STATISTICSFORTABLEOFSMOKEBYBRONStatisticDFValueProbChi Square17 4690 006LikelihoodRatio17 9250 005Chi SquareContinuityAdj Chi Square16 6740 010Mantel HaenszelChi Square17 4470 006Fisher sExactTest Left 4 09E 03 Right 0 998 2 Tai

4、l 6 86E 03PhiCoefficient 0 148ContingencyCoefficient0 147Cramer sV 0 148SampleSize 339 列联表中列出了表格单元频数和在零假设下的期望频数可以看出吸烟人中患病的数目比期望数目大检验的结果只要看后面的统计量部分的Chi Square一行其值为7 469 p值为0 006 所以应否定零假设吸烟与患慢性支气管炎是不独立的对应分析又称为相应分析也称R Q分析是因子分子基础发展起来的一种多元统计分析方法它主要通过分析属性定性变量构成的列联表来揭示变量之间的关系可以用对应分析图二维图显示列联表中

5、每一个单元格的相对位置以简单直观地表明列联表的行与列的关系对应分析也是利用降维的思想以达到简化数据结构的目的不过在因子分析中 R型因子分析和Q型因子分析是分开进行的对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来在对应分析中会同时对行与列进行处理寻求以低维图形表示数据表中的行与列的关系对同一观测数据施加R和Q型因子分析并分别保留两个公共因子则是对应分析的初步 7 2对应分析对应分析基本步骤 1 获取对应分析数据确定研究目的选择对应分析所需数据应该包括的背景资料 2 建立列联表3 对应分析4 利用对应图解释结果二对应分

6、析的原理由于R型因子分析和Q型因子分析是反映一个整体的不同侧面 R型因子分析是从列来讨论对变量 Q型因子分析是从行来讨论对样品因此他们之间存在内在的联系设原始数据矩阵为由于因子分析都是基于协方差矩阵或相关系数矩阵完成的所以必须从变量和样品的协方差矩阵入手来进行分析变量的叉积矩阵样品的叉积矩阵显而易见变量和样品的叉积矩阵的阶数不同一般来说他们的非零特征根也不一样那么能否将观测值做变换一规格化矩阵我们可以把pij解释成概率因为所有的元素之和为1 称为行轮廓即把第i行表示成在p维欧氏空间中的一个点行轮廓矩阵为由此我们可以将属性变量A的n个取值可以用P维空间

7、的n个点来表示 n个点的坐标即为该行轮廓矩阵但是因为原始变量的数量等级可能不同所以为了尽量减少各变量尺度差异将行轮廓中的各列元素均除以其期望的平方根得矩阵D R 第j个变量的期望为矩阵D R 是消除了变量B的各个状态概率影响的P维空间n个点的相对坐标则这n个点的重心也有p维坐标设其第j个分量为 N个点的重心为总惯量由矩阵D R 定义的n个点与其重心的欧氏距离之和称为行轮廓矩阵N R 的总惯量记为同时可证明称为列轮廓同理列轮廓矩阵为因为原始变量的数量等级可能不同所以为了尽量减少各变量尺度差异将列轮廓中的各行元素均除以其期望的平方根得矩阵D Q 利用行轮郭矩

8、阵可得第i个样品与第j个样品的协方差令Z为zij所组成的矩阵则利用列轮廓矩阵可得第i个变量与第j个变量的协方差令Z为zij所组成的矩阵则设是A Z Z的非零特征根则令Z为zij所组成的矩阵则因此将矩阵变换成矩阵Z 则很容易求出A和B存在着的简单对应关系由特征根和特征向量的性质 A和B有相同的非零特征根在上式的两边都左乘Z 则可见也是ZZ 的特征根相应的特征向量是三对应图设 1 2 l 0 i min n p 为矩阵A和B的非零特征根其相应的特征向量为我们知道因子载荷矩阵的含义是原始变量与公共因子之间的相关系数所以如果我们构造一个平面直角坐标系将第一公

9、共因子的载荷与第二个公共因子的载荷看成平面上的点在坐标系中绘制散点图则构成对应图例某地环境检测部门对该地所属8个地区的大气污染状况进行了系统的的检测每天4次同时在各个地区抽取大气样品则定其中的氯硫化氢二氧化硫碳4 环氧氯丙烷环已烷6种气体的浓度有资料如下 0 0560 0840 0310 0380 00810 0220 0490 0550 10 110 0220 00730 0380 130 0790 170 0580 0430 0340 0950 0580 160 20 0290 0840 0660 0290 320 0120 0410 0640 0720 10 210

10、0281 380 0480 0890 0620 260 0380 0360 0690 0870 0270 050 0890 021 F1和G1 F2和G2尺度相同所以可以在同一个直角坐标系中作出两种因子的载荷图这种图称为对应图 0 20 0 15 0 10 0 05 0 00 0 05 0 10 0 15 0 20 0 25 0 30 0 6 0 5 0 4 0 3 0 2 0 1 0 0 0 1 0 2 0 3 变量样品对应图由图我们可以看出全部变量与样品分为3类每一类聚合一些变量和样品第一类聚合了环氧氯丙烷X5和D和H两个地区表明D和H两个地区主要大气污染物为环氧氯丙烷

11、第二类包含变量X1 X2 X3 X4和样品A B C E和G地区这5个地区的主要污染物是氯硫化氢二氧化硫碳4 第三类包含X6和地区F 该地区的主要污染物是环已烷 1992 1994年在北京市进行的北京老龄化多维纵向研究在这项研究中先后在两年时间里对一批60岁以上的老年人进行了纵向追踪调查有2703位老年人在两次调查中都被调查了解对被调查的老年人日常生活自理能力和自评健康情况得如下资料 InertiaandChi SquareDecompositionSingularPrincipalChi ValuesInertiasSquaresPercents1836547290 0 296150 08770237 06092 45 0 084630 0071619 3587 55 0 09486256 418 DegreesofFreedom 10 RowCoordinatesDim1Dim21 0 25463 0 076812 0 12566 0 026713 0 09409 0 0018440 338420 1530151 38102 0 4086361 18558 0 10506 ColumnCoordinatesDim1Dim21 158972 02163720 2317290 19196030 734563 109719

展开阅读全文