教学课件第十章典型相关分析

资源描述

《教学课件第十章典型相关分析》由会员分享，可在线阅读，更多相关《教学课件第十章典型相关分析（42页珍藏版）》请在金锄头文库上搜索。

1、第十章典型相关分析v10.1 引言v10.2 总体典型相关v10.3 样本典型相关v10.4 典型相关系数的显著性检验10.1 引言v典型相关分析（canonical correlation analysis）是研究两组变量之间相关关系的一种统计分析方法，它能够有效地揭示两组变量之间的相互线性依赖关系。v典型相关分析是由霍特林（Hotelling,1935,1936）首先提出的。典型相关分析的应用例子v在工厂里，考察产品的q个质量指标(y1,y2,yq)与原材料的p个质量指标(x1,x2,xp)之间的相关关系；v牛肉、猪肉的价格与按人口平均的牛肉、猪肉的消费量之间的相关关系；v初一学生的阅读

2、速度、阅读才能与数学运算速度、数学运算才能之间的相关关系；v硕士研究生入学考试的各科成绩与本科阶段一些主要课程成绩之间的相关关系；v一组政府政策变量与一组经济目标变量之间的相关关系。10.2 总体典型相关v一、典型相关的定义及导出v二、典型相关变量的性质v三、从相关矩阵出发计算典型相关一、典型相关的定义及导出v设x=(x1,x2,xp)和y=(y1,y2,yq)是两组随机变量，且V(x)=11(0)，V(y)=22(0)，Cov(x, y)=12，即有其中21=12。v我们研究u=ax与v=by之间的相关关系，其中a=(a1,a2,ap)，b=(b1,b2,bq)v Cov(u,v)=Cov(

3、ax,by)=aCov(x,y)b=a12bV(u)=V(ax)=aV(x)a=a11aV(v)=V(by)=bV(y)b=b22b所以附加约束条件V(u)=1，V(v)=1即a11a=1，b22b=1在此约束条件下，求aRp和bRq，使得(u,v)=a12b达到最大。v令，于是约束条件化为=1，=1 利用柯西不等式(1.8.1)，有由(1.8.3)式知，当=1时，达到最大值，其中是非负定矩阵的最大特征值，1相应的单位特征向量。若取(10.2.7)则依 (1.8.1) 式知，不等式(10.2.7)中的等号成立。从而，当取时，(u,v)=a12b达到最大值1（显然11）。称为

4、第一对典型相关变量，称1为第一个典型相关系数。v记m为12的秩，则从而，有m个正特征值，记为，相应的正交单位特征向量记为 1,2,m。和都具有相同的非零特征值。v令则1,2,m为的相应于的正交单位特征向量；a1,a2,am为的相应于的特征向量；b1,b2,bm为的相应于的特征向量。v第一对典型相关变量u1,v1提取了x与y之间相关的最主要部分，如果这一部分还显得不够，可以在剩余相关中再求出第二对典型相关变量u2=ax,v2=by，也就是a,b应满足标准化条件且应使得第二对典型相关变量不包括第一对典型相关变量所含的信息，即(u2,u1)=(ax,a1x)=Cov(ax, a1

5、x)=a11a1=0(v2,v1)=(by,b1y)=Cov(by,b1y)=b22b1=0在这些约束条件下使得(u2,v2)=(ax,by)=a12b达到最大。v一般地，第i（1im）对典型相关变量ui=ax,vi=by是指，找出aRp,bRq，在约束条件a11a=1，b22b=1a11ak=0，b22bk=0，k=1,2,i1下，使得(ui,vi)=(ax,by)=a12b达到最大。v令，于是上述约束条件等价于=1，=1k=0，k=0，k=1,2,i1v由 (1.8.4) 式知，在该约束条件下，当=i时，达到最大值。若取则依 (1.8.1) 式，不等式(10.2.7)中的等号成立。所

6、以，当取a=ai,b=bi时，(ui,vi)达到最大值i，称它为第i个典型相关系数，称ai,bi为第i对典型系数。二、典型相关变量的性质v1.同一组的典型变量互不相关v2.不同组的典型变量之间的相关性v3.原始变量与典型变量之间的相关系数v4.典型相关系数也是某种复相关系数v5.简单相关、复相关和典型相关之间的关系1.同一组的典型变量互不相关v设x,y的第i对典型变量为ui=aix，vi=biy， i=1,2,m则有V(ui)=ai11ai=1，V(vi)=bi22bi=1，i=1,2,m(ui,uj)=Cov(ui,uj)=ai11aj=0，1ijm(vi,vj)=Cov(vi,vj)=bi

7、22bj=0，1ijm2.不同组的典型变量之间的相关性v (ui,vi)=i，i=1,2,mv记u=(u1,u2,um)，v=(v1,v2,vm)，则上述两个性质可用矩阵表示为V(u)=I，V(v)=I，Cov(u,v)=或其中=diag(1,2,m)。3.原始变量与典型变量之间的相关系数v记A=(a1,a2,am)，B=(b1,b2,bm)，则原始变量与典型变量之间的协方差矩阵为Cov(x,u)=Cov(x,Ax)=11ACov(x,v)=Cov(x,By)=12BCov(y,u)=Cov(y,Ax)=21ACov(y,v)=Cov(y,By)=22Bv原始变量与典型变量之间的相关矩阵为其

8、中(10.2.18)式的证明v现证明第一个等式，其余三个等式的证明是完全类似的。令其中1=E(x)，2=E(y)，即对x和y的各分量作标准化变换，于是4.典型相关系数也是某种复相关系数v 与y的复相关系数为v 与x的复相关系数为5.简单相关、复相关和典型相关之间的关系v当p=q=1时，x与y之间的（惟一）典型相关就是它们之间的简单相关；当p=1或q=1时，x与y之间的（惟一）典型相关就是它们之间的复相关。可见，复相关是典型相关的一个特例，而简单相关是复相关的一个特例。v第一个典型相关系数至少同x（或y）的任一分量与y（或x）的复相关系数一样大，即使所有这些复相关系数都较小，第一个典型相关系数仍

9、可能很大；同样，从复相关的定义也可以看出，当p=1（或q=1）时，x（或y）与y（或x）之间的复相关系数也不会小于x（或y）与y（或x）的任一分量之间的相关系数，即使所有这些相关系数都较小，复相关系数仍可能很大。三、从相关矩阵出发计算典型相关v有时，x和y的各分量的单位不全相同，我们希望在对各分量作标准化变换之后再作典型相关分析。v设为的相关矩阵，现在来求x*和y*的典型相关变量。于是因为所以式中，有。同理式中，有。v由此可见，为x*和y*的第i对典型系数，其第i个典型相关系数仍为i，在标准化变换下具有不变性，这一点与主成分分析有所不同。v由于故x*和y*的第i对典型变量是

10、x和y的第i对典型变量ui=aix，vi=biy的中心化值，自然都具有零均值。v例10.2.1 设x,y有如下相关矩阵：这里|1, | |1，可以保证存在。由于11有惟一的非零特征值11=2，故有惟一非零特征值在约束条件下，相应于特征值的特征向量为。同理，在约束条件下，相应于特征值的特征向量为。所以，第一对典型相关变量为第一个典型相关系数为。由于|1， |，表明第一个典型相关系数大于两组原始变量之间的相关系数。10.3 样本典型相关v设数据矩阵为则样本协方差矩阵为S可用来作为的估计。当np+q时，可分别作为的估计；它们的非零特征值可用来估计；v相应的特征向量作为a

11、1,a2,am的估计，作为b1,b2,bm的估计。的正平方根rj称为第i个样本典型相关系数，称为第i对样本典型相关变量, i=1,2,m。v中心化的m对典型变量为将样本(xj,yj)，j=1,2,n代入上式，有分别称uji和vij为（第j个样品的）xj和yj的第i个样本典型变量得分。由约束条件可得ui的样本方差v同理可得vi的样本方差v可画出第一对典型变量得分(uj1,vj1)，j=1,2,n的散点图，该图能最大限度地呈现两组变量之间的相关性，也可用来检查是否有异常值出现。如需要，可再画出第二对或更多对的典型变量得分散点图。v样本典型变量对（在前述的约束条件下）使样本相关系数达到最大，而

12、非使（总体）相关系数达到最大；同组的样本典型变量之间是样本不相关，而非（总体）不相关；样本典型变量的样本方差为1，而非（总体）方差为1。v例10.3.1 某康复俱乐部对20名中年人测量了三个生理指标：体重(x1)、腰围(x2)、脉搏(x3)和三个训练指标：引体向上(y1)、起坐次数(y2)、跳跃次数(y3)。其数据列于表。表10.3.1某康复俱乐部的生理指标和训练指标数据编号x1x2x3y1y2y311913650516260218937522110603193385812101101416235621210537518935461315558618236564101427211385681

13、01388167346061254091763174152004010154335617251250111693450171203812166335213210115131543464142151051424746501505015193364667031162023762122101201717637544602518157325211230801915633541522573201383368211043v 的特征值分别为0.6630、0.0402和0.0053，于是r1=0.797，r2=0.201，r3=0.073相应的样本典型变量系数为因此，第一对样本典型变量为如果需要，第二对样本

14、典型变量为v例10.3.2 在研究组织结构对“职业满意度”的影响时，作为其中一部分，邓讷姆(Dunham)调查了职业满意度与职业特性相关的程度。对从一大型零售公司各分公司挑出的n=784个行政人员，测量了p=5个职业特性变量：用户反馈(x1)、任务重要性(x2)、任务多样性(x3)、任务特性(x4)及自主权(x5)和q=7个职业满意度量：主管满意度(y1)、事业前景满意度(y2)、财政满意度(y3)、工作强度满意度(y4)、公司地位满意度(y5)、工种满意度(y6)及总体满意度(y7)。对784个被测者的样本相关矩阵为v 样本典型相关系数和样本典型变量系数列于表中。表10.3.2 典型相关系数

15、和典型变量系数标准化变量x1*0.420.340.860.790.03x2*0.200.670.440.270.98x3*0.170.850.260.470.91x4*0.020.360.421.040.52x5*0.460.730.980.170.44rj0.550.240.120.070.06标准化变量y1*0.430.090.490.130.48y2*0.210.440.780.340.75y3*0.040.090.480.610.35y4*0.020.930.010.400.31y5*0.290.100.280.450.70y6*0.520.550.410.690.18y7*0.110

16、.030.930.270.01第一对样本典型变量为根据典型系数，u1*主要代表了用户反馈和自主权这两个变量，三个任务变量显得并不重要；而v1*主要代表了主管满意度和工种满意度变量，其次代表了事业前景满意度和公司地位满意度变量。我们也可从相关系数的角度来解释典型变量，原始变量与第一对典型变量间的样本相关系数列于表中。v所有五个职业特性变量与第一典型变量u1*有大致相同的相关系数，故u1*可以解释为职业特性变量，这与基于典型系数的解释不同。v1*主要代表了主管满意度、事业前景满意度、公司地位满意度和工种满意度，v1*可以解释为职业满意度公司地位变量，这与基于典型系数的解释基本相一致。第一对典型变量

17、u1*与v1*的样本相关系数r1=0.55，可见，职业特性与职业满意度之间有一定程度的相关性。表10.3.3 原始变量与典型变量的样本相关系数原始变量样本典型变量原始变量样本典型变量xu1*v1*yu1*v1*x1：用户反馈0.830.46y1：主管满意度0.420.76x2：任务重要性0.730.40y2：事业前景满意度0.360.64x3：任务多样性0.750.42y3：财政满意度0.210.39x4：任务特性0.620.34y4：工作强度满意度0.210.38x5：自主权0.860.48y5：公司地位满意度0.360.65y6：工种满意度0.450.80y7：总体满意度0.280.501

18、0.4 典型相关系数的显著性检验v一、全部总体典型相关系数均为零的检验v二、部分总体典型相关系数为零的检验一、全部总体典型相关系数均为零的检验v设。又设S为样本协差阵，且np+q。v考虑假设检验问题： H0：1=2=m=0 H1：1,2,m至少有一个不为零其中m=minp,q。若检验接受H0，则认为讨论两组变量之间的相关性没有意义；若检验拒绝H0，则认为第一对典型变量是显著的。(10.4.1)式实际上等价于假设检验问题H0：12=0，H1：120H0成立表明x与y互不相关。(10.4.1)似然比检验统计量为对于充分大的n，当H0成立时，统计量在给定的下，若，则拒绝H0，认为典型变量u1与v

19、1之间的相关性是显著的；否则，就认为第一个典型相关系数不显著。v例10.4.1 在例中，假设为多元正态数据，欲检验：H0：1=2=3=0，H1：10它的似然比统计量为查2分布表得，，因此在=0.10的显著性水平下，拒绝原假设H0，也即认为至少有一个典型相关是显著的。二、部分总体典型相关系数为零的检验v若H0：1=2=m=0经检验被拒绝，则应进一步检验假设 H0：2=m=0 H1：2,m至少有一个不为零若原假设H0被接受，则认为只有第一对典型变量是有用的；若原假设H0被拒绝，则认为第二对典型变量也是有用的。v如此进行下去，直至对某个k，假设H0：k+1=m=0被接受，这时可认为只有前k对典型变

20、量是显著的。v对于假设检验问题 H0：k+1=m=0 H1：k+1,m至少有一个不为零其检验统计量为对于充分大的n，当H0为真时，统计量近似服从2 (pk)(qk) 。给定，若，则拒绝H0，认为k+1是显著的，即第k+1对典型变量显著相关。v以上的一系列检验实际上是一个序贯检验，检验直到对某个k值H0未被拒绝为止。事实上，检验的总显著性水平已不是了，且难以确定。还有，检验的结果易受样本容量大小的影响。因此，检验的结果只宜作为确定典型变量个数的重要参考依据，而不宜作为惟一的依据。通常选择尽可能小的k。v例10.4.2 在例中，欲进一步检验：H0：2=3=0，H1：20检验统计量为故接受H0，即认为第二个典型相关是不显著的。因此，只有一个典型相关是显著的。

展开阅读全文

教学课件第十章典型相关分析

最新文档