从数据到结论(人民大学吴喜之教授)10典型相关

上传人:子 文档编号:52251996 上传时间:2018-08-19 格式:PPT 页数:32 大小:1.46MB
返回 下载 相关 举报
从数据到结论(人民大学吴喜之教授)10典型相关_第1页
第1页 / 共32页
从数据到结论(人民大学吴喜之教授)10典型相关_第2页
第2页 / 共32页
从数据到结论(人民大学吴喜之教授)10典型相关_第3页
第3页 / 共32页
从数据到结论(人民大学吴喜之教授)10典型相关_第4页
第4页 / 共32页
从数据到结论(人民大学吴喜之教授)10典型相关_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《从数据到结论(人民大学吴喜之教授)10典型相关》由会员分享,可在线阅读,更多相关《从数据到结论(人民大学吴喜之教授)10典型相关(32页珍藏版)》请在金锄头文库上搜索。

1、典型相关分析两组变量的相关问题 我们知道如何衡量两个变量之间是否相关 的问题;这是一个简单的公式就可以解决 的问题(Pearson相关系数、 Kendalls t、 Spearman 秩相关系数。 如果我们有两组变量,如何能够表明它们 之间的关系呢? 例子(数据tv.sav) 业内人士和观众对于一些电视节目的观点 有什么样的关系呢?数据tv.sav是不同的人 群对30个电视节目所作的平均评分。 观众评分来自低学历(led)、高学历(hed)和 网络(net)调查三种,它们形成第一组变量 ; 而业内人士分评分来自包括演员和导演在 内的艺术家(arti)、发行(com)与业内各部门 主管(man)

2、三种,形成第二组变量。人们对 这样两组变量之间的关系感到兴趣。 例子(数据tv.sav) 业内人士和观众对于一些电视节目的观点 有什么样的关系呢?数据tv.sav是不同的人 群对30个电视节目所作的平均评分。 观众评分来自低学历(led)、高学历(hed)和 网络(net)调查三种,它们形成第一组变量 ; 而业内人士分评分来自包括演员和导演在 内的艺术家(arti)、发行(com)与业内各部门 主管(man)三种,形成第二组变量。人们对 这样两组变量之间的关系感到兴趣。 寻找代表 如直接对这六个变量的相关进行两两分析,很难得 到关于这两组变量之间关系的一个清楚的印象。 希望能够把多个变量与多个

3、变量之间的相关化为两 个变量之间的相关。 现在的问题是为每一组变量选取一个综合变量作为 代表; 而一组变量最简单的综合形式就是该组变量的线性 组合。 由于一组变量可以有无数种线性组合(线性组合由 相应的系数确定),因此必须找到既有意义又可以 确定的线性组合。 典型相关分析(canonical correlation analysis)就是要 找到这两组变量线性组合的系数使得这两个由线性 组合生成的变量(和其他线性组合相比)之间的相 关系数最大。 典型变量 假定两组变量为X1,X2,Xp和Y1,Y2,Yq,那 么,问题就在于要寻找系数a1,a2,ap和 b1,b2,bq,和使得新的综合变量(亦称

4、为典 型变量(canonical variable)) 之间的相关关系最大。这种相关关系是用典 型相关系数(canonical correlation coefficient )来衡量的。 典型相关系数 这里所涉及的主要的数学工具还是矩阵的特征值和 特征向量问题。而所得的特征值与V和W的典型相关 系数有直接联系。 由于特征值问题的特点,实际上找到的是多组典型 变量(V1, W1), (V2, W2),,其中V1和W1最相关,而 V2和W2次之等等, 而且V1, V2, V3,之间及而且W1, W2, W3,之间互不 相关。这样又出现了选择多少组典型变量(V, W)的 问题了。实际上,只要选择特

5、征值累积总贡献占主 要部分的那些即可。 软件还会输出一些检验结果;于是只要选择显著的 那些(V, W)。 对实际问题,还要看选取的(V, W)是否有意义,是 否能够说明问题才行。至于得到(V, W)的计算,则 很简单,下面就tv.sav数据进行分析。数学原理?计算结果 第一个表为判断这两组变量相关性的若干检 验,包括Pillai迹检验,Hotelling-Lawley迹检 验,Wilks l检验和Roy的最大根检验;它们 都是有两个自由度的F检验。该表给出了每个 检验的F值,两个自由度和p值(均为0.000) 。计算结果 下面一个表给出了特征根(Eigenvalue),特征根所占 的百分比(P

6、ct)和累积百分比(Cum. Pct)和典型相关 系数(Canon Cor)及其平方(Sq. Cor)。看来,头两对 典型变量(V, W)的累积特征根已经占了总量的 99.427%。它们的典型相关系数也都在0.95之上。 计算结果 对于众多的计算机输出挑出一些来介绍。下面表 格给出的是第一组变量相应于上面三个特征根的 三个典型变量V1、V2和V3的系数,即典型系数 (canonical coefficient)。注意,SPSS把第一组变 量称为因变量(dependent variables),而把第二 组称为协变量(covariates);显然,这两组变量是 完全对称的。这种命名仅仅是为了叙述

7、方便。 这些系数以两种方式给出;一种是没有标准化的 原始变量的线性组合的典型系数(raw canonical coefficient),一种是标准化之后的典型系数 (standardized canonical coefficient)。标准化的典 型系数直观上对典型变量的构成给人以更加清楚 的印象。可以看出,头一个典型变量V1相应于前 面第一个(也是最重要的)特征值,主 要代表高学历变量hed;而相应于前面 第二个(次要的)特征值的第二个典型 变量V2主要代表低学历变量led和部分的 网民变量net,但高学历变量在这里起负 面作用。 计算结果 类似地,也可以得到被称为协变量(covariat

8、e) 的标准化的第二组变量的相应于头三个特征 值得三个典型变量W1、W2和W2的系数: 。例子结论 从这两个表中可以看出,V1主要和变量hed相 关,而V2主要和led及net相关;W1主要和变 量arti及man相关,而W2主要和com相关;这 和它们的典型系数是一致的。 由于V1和W1最相关,这说明V1所代表的高学 历观众和W1所主要代表的艺术家(arti)及各部 门经理(man)观点相关;而由于V2和W2也相关 ,这说明V2所代表的低学历(led)及以年轻人 为主的网民(net)观众和W2所主要代表的看重 经济效益的发行人(com)观点相关,但远远不 如V1和W1的相关那么显著(根据特征

9、值的贡 献率)。 SPSS的实现 对例tv.sav,首先打开例14.1的SPSS数据tv.sav, 通过FileNewSyntax打开一个空白文件(默 认文件名为Syntax1.sps),再在其中键入下面命 令行: MANOVA led hed net WITH arti com man /DISCRIM ALL ALPHA(1) /PRINT=SIG(EIGEN DIM). 再点击一个向右的三角形图标(运行目前程序, Run current),就可以得到所需结果了。 还可以把Syntax1.sps另以其他名字(比如tv.sps )存入一个文件夹。下次使用时就可以通过File OpenSynt

10、ax来打开这个文件了。SPSS的实现 注意1:典型相关分析是本书内容中唯一不能用SPSS的 点击鼠标的“傻瓜”方式,而必须用写入程序行来运行的 模型。读者不必要再去研究语法的细节,只要能够举一 反三,套用这个例子的程序即可。当然,如果读者愿意 学习SPSS的语法,则在处理数据时,肯定会更方便。 注意2:一些SPSS的输出很长,这时输出窗口截去了一 些内容没有显示(这有些随意性)。这时输出窗口 (SPSS Viewer)中结果的左下角有一个红色的三角型。 如果想要看全部内容,可以先点击鼠标左键,选中输出 结果,然后从点右键得到的菜单中选择Export,就可以 把全部结果(包括截去的部分)存入一个

11、htm形式的文 件了供研究和打印之用。相关分析(Correlation Analysis) 两个变量时,用线性相关系数研究两 个变量之间的线性相关性:典型相关分析 目的:研究多个变量之间的相关性 方法:利用主成分思想,可以把多个 变量与多个变量之间的相关化为两 个变量之间的相关. 即找一组系数( 向量)l和m, 使新变量U=lX(1)和 V=mX(2)有最大可能的相关关系.数学: 设两组随机变量而的协方差阵S0,均值向量m=0, S 的剖分为:对于前面的新变量U=lX(1)和V=mX(2) Var(U)=Var(lX(1) )=lS11l Var(V)=Var(mX(2) )=mS22m Co

12、v(U,V)=lS12m, rUV=lS12m/(lS11l)(mS22m) 我们试图在约束条件Var(U)=1, Var(V)=1下寻求 l和m使rUV= Cov(U,V)=lS12m达到最大.这是Lagrange乘数法求下面f的极大值经过求偏导数和解方程, 得到l=n=lS12m=Cov(U,V), 及因此l2既是A又是B的特征值, 而相应的特征 向量为l,m可得到p1对线性组合Ui=l(i)X(1), Vi=m(i)X(2),称 每一对变量为典型变量. 其极大值 称为第一典型相关系数. 一般只取前几个影响 大的典型变量和典型相关系数来分析.A和B的特征根有如下性质: (1)A和B有相同

13、的非零特征根, (2)其数目为p1. A和B的特征 根非负. (3) A和B的特征根均在0和1之间. 我们表示这些称为典型相关系数的非零特 征值和相应的特征向量为典型变量的性质: (1)X(1)和X(2)中的一切典型变量都不相关. (2) X(1)和X(2)的同一对典型变量Ui和Vi之间的 相关系数为li, 不同对的Ui和Vj(ij)之间不 相关. 样本情况, 只要把S用样本协差阵或样本相关阵R代替. 下面回到我们的例子。典型相关系数的显著性检验: 首先看X(1) 和X(2)是否相关,如不相关, 就不必讨论.如果这是为检验第1个典型相关系数的显著性 检验统计量为其中 为 的特征根.如果H0为检

14、验第r(r F 1 0.919412 0.898444 2.93 0.0223 2 0.418649 0.276633 0.49 0.745 3 0.113366 . 0.13 0.7257表2 标准化典型变量的系数 Satisfaction1 Satisfaction2 Satisfaction3 Career 0.3028 -0.5416 1.0408 Supervisor S 0.7854 0.1305 -0.9085 Finance 0.0538 0.9754 0.3329Characteristics1 Characteristics2 Characteristics3 Variety -0.1108 0.8095 0.9071 Feedback 0.5520 -0.7722 0.4194 Autonomy 0.8403 0.1020 -0.8297(1 你认为应该选取几对典型变量?有几对典型相关系数是显著的? 试写出你选取的典型变量的表达式(由标准化后的变量表示),并且解释你 选取的典型变量的含义 偏相关系数: 随机变量(X1, Xm)的相关阵为rij, 在 (X3, Xm)给定的条件下, X1和X2的条件联 合分布的相关系数称为X1和X2关于(X3, Xm)的偏相关系数,记作r12.34m.后面是对应分析 (Correspondence Analysis)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号