统计学,数据到结论13

上传人:kms****20 文档编号:50947939 上传时间:2018-08-11 格式:PPT 页数:31 大小:510.50KB
返回 下载 相关 举报
统计学,数据到结论13_第1页
第1页 / 共31页
统计学,数据到结论13_第2页
第2页 / 共31页
统计学,数据到结论13_第3页
第3页 / 共31页
统计学,数据到结论13_第4页
第4页 / 共31页
统计学,数据到结论13_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《统计学,数据到结论13》由会员分享,可在线阅读,更多相关《统计学,数据到结论13(31页珍藏版)》请在金锄头文库上搜索。

1、统计学从数据到结论第十三章 典型相关分析13.1两组变量的相关问题 我们知道如何衡量两个变量之间是 否相关的问题;这是一个简单的公 式就可以解决的问题(Pearson相关 系数、 Kendalls t、 Spearman 秩 相关系数)。公式 如果我们有两组变量,如何能够表 明它们之间的关系呢? 例子(数据tv.txt) 业内人士和观众对于一些电视节目的观点 有什么样的关系呢?该数据是不同的人群 对30个电视节目所作的平均评分。 观众评分来自低学历(led)、高学历(hed)和 网络(net)调查三种,它们形成第一组变量; 而业内人士分评分来自包括演员和导演在 内的艺术家(arti)、发行(c

2、om)与业内各部门 主管(man)三种,形成第二组变量。人们对 这样两组变量之间的关系感到兴趣。 寻找代表 如直接对这六个变量的相关进行两两 分析,很难得到关于这两组变量之间 关系的一个清楚的印象。 希望能够把多个变量与多个变量之间 的相关化为两个变量之间的相关。 现在的问题是为每一组变量选取一个 综合变量作为代表; 而一组变量最简单的综合形式就是该 组变量的线性组合。13.2 典型相关分析 由于一组变量可以有无数种线性组合 (线性组合由相应的系数确定),因 此必须找到既有意义又可以确定的线 性组合。 典型相关分析(canonical correlation analysis)就是要找到这两组

3、变量线性组 合的系数使得这两个由线性组合生成 的变量(和其他线性组合相比)之间 的相关系数最大。 典型变量 假定两组变量为X1,X2,Xp和Y1,Y2,Yq,那 么,问题就在于要寻找系数a1,a2,ap和 b1,b2,bq,和使得新的综合变量(亦称为典 型变量(canonical variable)) 之间的相关关系最大。这种相关关系是用典 型相关系数(canonical correlation coefficient )来衡量的。 典型相关系数 这里所涉及的主要的数学工具还是 矩阵的特征值和特征向量问题。而 所得的特征值与V和W的典型相关 系数有直接联系。 由于特征值问题的特点,实际上找 到

4、的是多组典型变量(V1, W1), (V2, W2),,其中V1和W1最相关,而V2 和W2次之等等,典型相关系数 而且V1, V2, V3,之间及而且W1, W2, W3,之间互不相关。这样又出现了选 择多少组典型变量(V, W)的问题了。实 际上,只要选择特征值累积总贡献占 主要部分的那些即可。 软件还会输出一些检验结果;于是只 要选择显著的那些(V, W)。 对实际问题,还要看选取的(V, W)是否 有意义,是否能够说明问题才行。至 于得到(V, W)的计算,则很简单,下面 就tv.txt数据进行分析。数学原理?计算结果 第一个表为判断这两组变量相关性的若干检 验,包括Pillai迹检验

5、,Hotelling-Lawley迹检 验,Wilks l检验和Roy的最大根检验;它们 都是有两个自由度的F检验。该表给出了每个 检验的F值,两个自由度和p值(均为0.000) 。计算结果 下面一个表给出了特征根(Eigenvalue),特征根所占 的百分比(Pct)和累积百分比(Cum. Pct)和典型相关 系数(Canon Cor)及其平方(Sq. Cor)。看来,头两对 典型变量(V, W)的累积特征根已经占了总量的 99.427%。它们的典型相关系数也都在0.95之上。 计算结果 对于众多的计算机输出挑出一些来介绍。下面表 格给出的是第一组变量相应于上面三个特征根的 三个典型变量V1

6、、V2和V3的系数,即典型系数 (canonical coefficient)。注意,SPSS把第一组变 量称为因变量(dependent variables),而把第二 组称为协变量(covariates);显然,这两组变量是 完全对称的。这种命名仅仅是为了叙述方便。 这些系数以两种方式给出;一种是没有标准化的 原始变量的线性组合的典型系数(raw canonical coefficient),一种是标准化之后的典型系数 (standardized canonical coefficient)。标准化的典 型系数直观上对典型变量的构成给人以更加清楚 的印象。可以看出,头一个典型变量V1相应于

7、前 面第一个(也是最重要的)特征值,主 要代表高学历变量hed;而相应于前面 第二个(次要的)特征值的第二个典型 变量V2主要代表低学历变量led和部分的 网民变量net,但高学历变量在这里起负 面作用。 计算结果 类似地,也可以得到被称为协变量(covariate) 的标准化的第二组变量的相应于头三个特征 值得三个典型变量W1、W2和W2的系数: 。例子结论 从这两个表中可以看出,V1主要和变量hed相 关,而V2主要和led及net相关;W1主要和变 量arti及man相关,而W2主要和com相关;这 和它们的典型系数是一致的。 由于V1和W1最相关,这说明V1所代表的高学 历观众和W1所

8、主要代表的艺术家(arti)及各部 门经理(man)观点相关;而由于V2和W2也相关 ,这说明V2所代表的低学历(led)及以年轻人 为主的网民(net)观众和W2所主要代表的看重 经济效益的发行人(com)观点相关,但远远不 如V1和W1的相关那么显著(根据特征值的贡 献率)。 SPSS的实现 对例tv.sav,首先打开例14.1的SPSS数据tv.sav, 通过FileNewSyntax打开一个空白文件(默 认文件名为Syntax1.sps),再在其中键入下面命 令行: MANOVA led hed net WITH arti com man /DISCRIM ALL ALPHA(1) /

9、PRINT=SIG(EIGEN DIM). 再点击一个向右的三角形图标(运行目前程序, Run current),就可以得到所需结果了。 还可以把Syntax1.sps另以其他名字(比如tv.sps )存入一个文件夹。下次使用时就可以通过File OpenSyntax来打开这个文件了。SPSS的实现 注意1:典型相关分析是本书内容中唯 一不能用SPSS的点击鼠标的“傻瓜”方 式,而必须用写入程序行来运行的模 型。读者不必要再去研究语法的细节 ,只要能够举一反三,套用这个例子 的程序即可。 当然,如果读者愿意学习SPSS的语法 ,则在处理数据时,肯定会更方便。SPSS的实现 注意2:一些SPSS

10、的输出很长,这时输出窗 口截去了一些内容没有显示(这有些随意 性)。这时输出窗口(SPSS Viewer)中结果 的左下角有一个红色的三角型。 如果想要看全部内容,可以先点击鼠标左 键,选中输出结果,然后从点右键得到的 菜单中选择Export,就可以把全部结果( 包括截去的部分)存入一个htm形式的文件 了供研究和打印之用。附录 两个变量时,用线性相关系数研究两 个变量之间的线性相关性:返回典型相关分析 目的:研究多个变量之间的相关性 方法:利用主成分思想,可以把多个 变量与多个变量之间的相关化为两 个变量之间的相关. 即找一组系数( 向量)l和m, 使新变量U=lX(1)和 V=mX(2)有

11、最大可能的相关关系.数学: 设两组随机变量而的协方差阵S0,均值向量m=0, S 的剖分为:对于前面的新变量U=lX(1)和V=mX(2) Var(U)=Var(lX(1) )=lS11l Var(V)=Var(mX(2) )=mS22m Cov(U,V)=lS12m, rUV=lS12m/(lS11l)(mS22m) 我们试图在约束条件Var(U)=1, Var(V)=1下寻求 l和m使rUV= Cov(U,V)=lS12m达到最大.这是Lagrange乘数法求下面f的极大值经过求偏导数和解方程, 得到l=n=lS12m=Cov(U,V), 及因此l2既是A又是B的特征值, 而相应的特征 向

12、量为l,m可得到p1对线性组合Ui=l(i)X(1), Vi=m(i)X(2),称 每一对变量为典型变量. 其极大值 称为第一典型相关系数. 一般只取前几个影响 大的典型变量和典型相关系数来分析.A和B的特征根有如下性质: (1)A和B有相同 的非零特征根, (2)其数目为p1. A和B的特征 根非负. (3) A和B的特征根均在0和1之间. 我们表示这些称为典型相关系数的非零特 征值和相应的特征向量为典型变量的性质: (1)X(1)和X(2)中的一切典型变量都不相关. (2) X(1)和X(2)的同一对典型变量Ui和Vi之间的 相关系数为li, 不同对的Ui和Vj(ij)之间不 相关. 样本

13、情况, 只要把S用样本协差阵或样本相关阵R代替. 下面回到我们的例子。典型相关系数的显著性检验: 首先看X(1) 和X(2)是否相关,如不相关, 就不必讨论.如果这是为检验第1个典型相关系数的显著性 检验统计量为其中 为 的特征根.如果H0为检验第r(rk)个典型相关系数的显著性检验统计量为当然在实际例子中一般并不知道S。因此 在只有样本数据的情况下, 只要把S用样 本协差阵或样本相关阵代替就行了。但 是这时的特征根可能不在0和1的范围, 因此会出现软件输出中的特征根(比如 大于1)不等于相关系数的平方的情况, 这时,各种软件会给出调整后的相关系 数。 典型相关和回归分析的关系 把X(1)和X(2)换成回归中的X和Y, 这就是因 变量和自变量之间的相关问题. 而Y在X上 的投影,就是回归了.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号