统计学典型相关分析

上传人:aa****6 文档编号:48863830 上传时间:2018-07-21 格式:PPT 页数:57 大小:609KB
返回 下载 相关 举报
统计学典型相关分析_第1页
第1页 / 共57页
统计学典型相关分析_第2页
第2页 / 共57页
统计学典型相关分析_第3页
第3页 / 共57页
统计学典型相关分析_第4页
第4页 / 共57页
统计学典型相关分析_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《统计学典型相关分析》由会员分享,可在线阅读,更多相关《统计学典型相关分析(57页珍藏版)》请在金锄头文库上搜索。

1、统计学从数据到结论第十三章 典型相关 分析13.1两组变量的相关问题 n我们知道如何衡量两个变量之间是 否相关的问题;这是一个简单的公 式就可以解决的问题(Pearson相关 系数、 Kendalls t、 Spearman 秩相关系数)。公式n如果我们有两组变量,如何能够表 明它们之间的关系呢? 例子(数据tv.txt) n业内人士和观众对于一些电视节目的观点有 什么样的关系呢?该数据是不同的人群对30 个电视节目所作的平均评分。n观众评分来自低学历(led)、高学历(hed)和网 络(net)调查三种,它们形成第一组变量;n而业内人士分评分来自包括演员和导演在内 的艺术家(arti)、发行

2、(com)与业内各部门主管 (man)三种,形成第二组变量。人们对这样两 组变量之间的关系感到兴趣。 寻找代表 n如直接对这六个变量的相关进行两两分 析,很难得到关于这两组变量之间关系 的一个清楚的印象。n希望能够把多个变量与多个变量之间的 相关化为两个变量之间的相关。n现在的问题是为每一组变量选取一个综 合变量作为代表;n而一组变量最简单的综合形式就是该组 变量的线性组合。13.2 典型相关分析n由于一组变量可以有无数种线性组合( 线性组合由相应的系数确定),因此必 须找到既有意义又可以确定的线性组合 。n典型相关分析(canonical correlation analysis)就是要找到

3、这两组变量线性组 合的系数使得这两个由线性组合生成的 变量(和其他线性组合相比)之间的相 关系数最大。 典型变量 n假定两组变量为X1,X2,Xp和Y1,Y2,Yq,那么 ,问题就在于要寻找系数a1,a2,ap和b1,b2,bq ,和使得新的综合变量(亦称为典型变量 (canonical variable)) 之间的相关关系最大。这种相关关系是用典 型相关系数(canonical correlation coefficient )来衡量的。 典型相关系数 n这里所涉及的主要的数学工具还是 矩阵的特征值和特征向量问题。而 所得的特征值与V和W的典型相关系 数有直接联系。n由于特征值问题的特点,实

4、际上找 到的是多组典型变量(V1, W1), (V2, W2),,其中V1和W1最相关,而V2 和W2次之等等,典型相关系数 n而且V1, V2, V3,之间及而且W1, W2, W3,之间互不相关。这样又出现了选 择多少组典型变量(V, W)的问题了。实 际上,只要选择特征值累积总贡献占主 要部分的那些即可。n软件还会输出一些检验结果;于是只要 选择显著的那些(V, W)。n对实际问题,还要看选取的(V, W)是否 有意义,是否能够说明问题才行。至于 得到(V, W)的计算,则很简单,下面就 tv.txt数据进行分析。数学原理?计算结果 n第一个表为判断这两组变量相关性的若干检验, 包括Pi

5、llai迹检验,Hotelling-Lawley迹检验, Wilks l检验和Roy的最大根检验;它们都是有 两个自由度的F检验。该表给出了每个检验的F 值,两个自由度和p值(均为0.000)。计算结果 n下面一个表给出了特征根(Eigenvalue),特征根所占的 百分比(Pct)和累积百分比(Cum. Pct)和典型相关系数 (Canon Cor)及其平方(Sq. Cor)。看来,头两对典型变 量(V, W)的累积特征根已经占了总量的99.427%。它们 的典型相关系数也都在0.95之上。 计算结果 n对于众多的计算机输出挑出一些来介绍。下面表格 给出的是第一组变量相应于上面三个特征根的三

6、个 典型变量V1、V2和V3的系数,即典型系数 (canonical coefficient)。注意,SPSS把第一组变 量称为因变量(dependent variables),而把第二组 称为协变量(covariates);显然,这两组变量是完全 对称的。这种命名仅仅是为了叙述方便。n这些系数以两种方式给出;一种是没有标准化的原 始变量的线性组合的典型系数(raw canonical coefficient),一种是标准化之后的典型系数 (standardized canonical coefficient)。标准化的 典型系数直观上对典型变量的构成给人以更加清楚 的印象。可以看出,头一个典

7、型变量V1相应于前 面第一个(也是最重要的)特征值,主 要代表高学历变量hed;而相应于前面 第二个(次要的)特征值的第二个典型 变量V2主要代表低学历变量led和部分的 网民变量net,但高学历变量在这里起负 面作用。 计算结果 n类似地,也可以得到被称为协变量(covariate)的 标准化的第二组变量的相应于头三个特征值得三 个典型变量W1、W2和W2的系数: 。例子结论 n从这两个表中可以看出,V1主要和变量hed相关 ,而V2主要和led及net相关;W1主要和变量arti 及man相关,而W2主要和com相关;这和它们 的典型系数是一致的。n由于V1和W1最相关,这说明V1所代表的

8、高学历 观众和W1所主要代表的艺术家(arti)及各部门经 理(man)观点相关;而由于V2和W2也相关,这说 明V2所代表的低学历(led)及以年轻人为主的网民 (net)观众和W2所主要代表的看重经济效益的发 行人(com)观点相关,但远远不如V1和W1的相关 那么显著(根据特征值的贡献率)。 SPSS的实现n对例tv.sav,首先打开例14.1的SPSS数据tv.sav,n通过FileNewSyntax打开一个空白文件(默认 文件名为Syntax1.sps),再在其中键入下面命令 行:nMANOVA led hed net WITH arti com mann/DISCRIM ALL A

9、LPHA(1) n/PRINT=SIG(EIGEN DIM).n再点击一个向右的三角形图标(运行目前程序,Run current),就可以得到所需结果了。n还可以把Syntax1.sps另以其他名字(比如tv.sps )存入一个文件夹。下次使用时就可以通过File OpenSyntax来打开这个文件了。SPSS的实现n注意1:典型相关分析是本书内容中唯 一不能用SPSS的点击鼠标的“傻瓜”方 式,而必须用写入程序行来运行的模型 。读者不必要再去研究语法的细节,只 要能够举一反三,套用这个例子的程序 即可。n当然,如果读者愿意学习SPSS的语法 ,则在处理数据时,肯定会更方便。SPSS的实现n注

10、意2:一些SPSS的输出很长,这时输出窗 口截去了一些内容没有显示(这有些随意性 )。这时输出窗口(SPSS Viewer)中结果的左 下角有一个红色的三角型。n如果想要看全部内容,可以先点击鼠标左键 ,选中输出结果,然后从点右键得到的菜单 中选择Export,就可以把全部结果(包括截 去的部分)存入一个htm形式的文件了供研究 和打印之用。附录 两个变量时,用线性相关系数研究两 个变量之间的线性相关性:返回典型相关分析n目的:研究多个变量之间的相关性n方法:利用主成分思想,可以把多个 变量与多个变量之间的相关化为两 个变量之间的相关. 即找一组系数( 向量)l和m, 使新变量U=lX(1)和

11、 V=mX(2)有最大可能的相关关系.数学: 设两组随机变量而的协方差阵S0,均值向量m=0, S 的剖分为:对于前面的新变量U=lX(1)和V=mX(2) Var(U)=Var(lX(1) )=lS11l Var(V)=Var(mX(2) )=mS22m Cov(U,V)=lS12m, rUV=lS12m/(lS11l)(mS22m) 我们试图在约束条件Var(U)=1, Var(V)=1下寻求 l和m使rUV= Cov(U,V)=lS12m达到最大.这是Lagrange乘数法求下面f的极大值经过求偏导数和解方程, 得到l=n=lS12m=Cov(U,V), 及因此l2既是A又是B的特征值,

12、 而相应的特征 向量为l,m可得到p1对线性组合Ui=l(i)X(1), Vi=m(i)X(2),称 每一对变量为典型变量. 其极大值 称为第一典型相关系数. 一般只取前几个影响 大的典型变量和典型相关系数来分析.A和B的特征根有如下性质: (1)A和B有相同 的非零特征根, (2)其数目为p1. A和B的特征 根非负. (3) A和B的特征根均在0和1之间. 我们表示这些称为典型相关系数的非零特 征值和相应的特征向量为典型变量的性质: (1)X(1)和X(2)中的一切典型变量都不相关. (2) X(1)和X(2)的同一对典型变量Ui和Vi之间的 相关系数为li, 不同对的Ui和Vj(ij)之

13、间不 相关. 样本情况, 只要把S用样本协差阵或样本相关阵R代替. 下面回到我们的例子。典型相关系数的显著性检验: 首先看X(1) 和X(2)是否相关,如不相关, 就不必讨论.如果这是为检验第1个典型相关系数的显著性 检验统计量为其中 为 的特征根.如果H0为检验第r(rk)个典型相关系数的显著性检验统计量为当然在实际例子中一般并不知道S。因此 在只有样本数据的情况下, 只要把S用样 本协差阵或样本相关阵代替就行了。但 是这时的特征根可能不在0和1的范围, 因此会出现软件输出中的特征根(比如 大于1)不等于相关系数的平方的情况, 这时,各种软件会给出调整后的相关系 数。 典型相关和回归分析的关

14、系 把X(1)和X(2)换成回归中的X和Y, 这就是因 变量和自变量之间的相关问题. 而Y在X上 的投影,就是回归了.统计学从数据到结论第十四章 对应分析 行和列变量的相关问题 n在因子分析中,或者只对变量(列 中的变量)进行分析,或者只对样 品(观测值或行中的变量)进行分 析;而且利用载荷图来描述各个变 量之间的接近程度。n典型相关分析也只研究列中两组变 量之间的关系。行和列变量的相关问题 n然而,在很多情况下,所关心的不 仅仅是行或列本身变量之间的关系 ,而是行变量和列变量的相互关系 ;n这就是因子分析等方法所没有说明 的了。先看一个例子。例子(数据ChMath.txt )n为了考察汉字具

15、有的抽象图形符号 的特性能否会促进儿童空间和抽象 思维能力。该数据以列联表形式展 示在表中: n在研究读写汉字能力与数学的关系 的研究时,人们取得了232个美国亚 裔学生的数学成绩和汉字读写能力 的数据。例子(数据ChMath.txt )n该数据关于汉字读写能力的变量有三个 水平:n“纯汉字”意味着可以完全自由使用纯 汉字读写,n“半汉字”意味着读写中只有部分汉字 (比如日文),n而“纯英文”意味着只能够读写英文而 不会汉字。而数学成绩有4个水平(A、 B、C、D)。 人们可以对这个列联表进行前面所说的c2检验来考 察行变量和列变量是否独立。结果在下面表中(通 过AnalyzeDescript

16、ive StatisticsCrosstabs) 所有的检验都很显著,看来两个变量的确不独立。对应分析n但是如何用象因子分析的载荷图那 样的直观方法来展示这两个变量各 个水平之间的关系呢?这就是对应 分析(correspondence analysis )方法。n对应分析方法被普遍认为是探索性 数据分析的内容,因此,读者只要 能够会用数据画出描述性的点图, 并能够理解图中包含的信息即可。 对应分析 n处理列联表的问题仅仅是对应分析 的一个特例。一般地,n对应分析常规地处理连续变量的数 据矩阵;这些数据具有如在主成分 分析、因子分析、聚类分析等时所 处理的数据形式。对应分析 n在对应分析中,根据各行变量的因子载荷和 各列变量的因子载荷之间的关系,行因子载 荷和列因子载荷之间可以两两配对。n如果对每组变量选择前两列因子载荷,则两 组变量就可画出两因子载荷的散点图。n由于这两个图所表示的载荷可以配对,于是 就可以把这两个因子载荷的两个散点图画到 同一张图中,并以此

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > 教育/培训/课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号