典型相关系数－金锄头文库

资源描述

《典型相关系数》由会员分享，可在线阅读，更多相关《典型相关系数（90页珍藏版）》请在金锄头文库上搜索。

1、第七章典型相关与对应分析,7.1 典型相关分析 7.2 对应分析,7.1 典型相关分析 7.1.1 典型相关分析的概念与步骤 7.1.2 用INSIGHT模块实现典型相关分析 7.1.3 用“分析家”实现典型相关分析 7.1.4 用CANCORR过程实现典型相关分析,7.1.1 典型相关分析的概念与步骤 1. 典型相关分析的基本思想典型相关分析采用主成分的思想浓缩信息，根据变量间的相关关系，寻找少数几对综合变量(实际观测变量的线性组合)，用它们替代原始观测变量，从而将二组变量的关系集中到少数几对综合变量的关系上，通过对这些综合变量之间相关性的分析，回答两组原始变量间相关性的问题。除了要求所

2、提取的综合变量所含的信息量尽可能大以外，提取时还要求第一对综合变量间的相关性最大，第二对次之，依次类推。,这些综合变量被称为典型变量，或典则变量，第1对典型变量间的相关系数则被称为第1典型相关系数。典型相关系数能简单、完整地描述两组变量间关系的指标。当两个变量组均只有一个变量时，典型相关系数即为简单相关系数；当其中的一组只有一个变量时，典型相关系数即为复相关系数。,2. 典型相关系数与典型相关变量设X = (X1，X2，Xp)，Y = (Y1，Y2，Yq)是两个随机向量。利用主成分思想寻找第i对典型相关变量(Ui，Vi)： Ui = ai1X1 + ai2X2 + + aipXp = aiX

3、 Vi = bi1Y1 + bi2Y2 + + biqYq = biY i = 1，2，m = min(p，q)；称ai和bi为（第i对）典型变量系数或典型权重。,记第一对典型相关变量间的典型相关系数为： CanR1 = Corr(U1，V1)（使U1与V1间最大相关）；第二对典型相关变量间的典型相关系数为： CanR2 = Corr(U2，V2)（与U1、V1无关；使U2与V2间最大相关）第m对典型相关变量间的典型相关系数为： CanRm = Corr(Um，Vm)（与U1，V1，Um1，Vm1无关；Um与Vm间最大相关）,3. 典型相关变量的性质各对典型相关变量所包括的相关信息互不交

4、叉，且满足： 1) U1，U2，Um互不相关，V1，V2，Vm互不相关，即其相关系数为,2) 同一对典型相关变量Ui和Vi之间的相关系数为CanRi，不同对的典型相关变量之间互不相关，即： 3) Ui和Vi的均值为0，方差为1（i = 1，m）。 4) 1 CanR1 CanR2 CanRm 0,4. 典型相关系数的求解步骤 1) 求X，Y变量组的相关阵 R = ； 2) 求矩阵 A = (R11)1R12(R22)1R21 和 B = (R22)1R21(R11)1R12，可以证明A、B有相同的非零特征值； 3) 求A或B的特征值i与CanRi，A或B的特征值即为典型相关系数的平方：i =

5、 (CanRi)2，i = 1，m。,4) 求A、B关于i的特征向量。设ai为A关于i的特征向量，bi为B关于i的特征向量，则ai和bi为（第i对）典型变量系数。即第i对典型相关变量(Ui，Vi)： Ui = aiX* = ai1X1* + ai2X2* + + aipXp* Vi = biY* = bi1Y1* + bi2Y2* + + biqYq* i = 1，2，m = min(p，q)；其中X*，Y*为原变量组的标准化。,5. 特征根特征根(eigenvalue)是方差分析和多元检验的基础，特征根与典型相关系数之间的数量关系为：上式可以理解为第i对典型变量表示观测变量总方差作用的指

6、标，它的值越大说明表示作用越大。,6. 典型相关系数的标准误 7. 典型相关系数的假设检验典型相关系数的假设检验包括对全部总体典型相关系数的检验和对部分总体典型相关系数的检验。对数据的要求： 1) 两个变量组均应服从多维正态分布： (X，Y)Np+q(，2) 2) n p + q,(1) 全部总体典型相关系数为0 H0：CanRi = 0，i = 1，m H1：至少有一个CanRi 0 检验的似然比统计量为对于充分大的n，当H0成立时，统计量近似服从自由度为pq的2分布。,(2) 部分总体典型相关系数为0 仅对较小的典型相关作检验： H0：CanRi = 0，i = s，m，2 s m

7、H1：至少有一个CanRi 0 其检验的统计量为对于充分大的n，当H0成立时，统计量近似服从自由度为(p k)(q k)的2分布。,7.1.2 用INSIGHT模块实现典型相关分析 1. 实例【例7-1】1985年中国28省市城市男生(1922岁)的调查数据，见表7-1。其中6项形态指标：身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽，分别记为x1，x2，x6；5项机能指标：脉搏(次/分)、收缩压(mmHg)、舒张压(变音)、舒张压(消音)、肺活量(ml)，分别记为y1，y2，y5。,表7-1 城市男生(1922岁)形态与机能调查数据设表中数据已经存放在数据集Mylib.xtyj

8、n中，试分析形态指标和机能指标这两组变量间的相关性。,2. 分析设置在INSIGHT模块中打开数据集Mylib.xtyjn。 1) 选择菜单“Analyze”“Multivariate(Y X)（多元分析）”，打开“Multivariate(Y X)”对话框； 2) 将6项形态指标：x1至 x6选为X变量，将5项机能指标： y1至 y5选为Y变量，如图7-1左所示。,3) 单击“Output”按钮，在打开的对话框中选中“Canonical Correlation Analysis（典型相关分析）”复选框，单击下面的“Canonical Correlation Options（典型相关选项）”

9、按钮，打开“Canonical Correlation Options”对话框, 并按下图右所示设置。 4) 三次单击“OK”按钮，得到分析结果。,3. 结果分析 (1) 典型相关系数第1典型相关系数为0.939573，校正值为0.908276，标准误差为0.026207，典型相关系数的平方为0.882797；第2典型相关系数为0.877842，校正值为0.842459，标准误差为0.051294，典型相关系数的平方为0.770606，如图所示。前两个典型相关系数比形态指标和机能指标两组间的任何一个相关系数都大。,(2) 典型变量所解释的变异第二部分是的5个特征根（Eigenvalues

10、），包括：特征根、相邻两个特征根之差、特征根所占方差信息量的比例和累积方差信息量的比例。从中可以看出，前两对典型变量所能解释的变异占总变异（方差）的91.18%，如图7-4所示。其它三个典型相关变量的作用很小，一共只解释了总变异的9%，可以不予考虑。,(3) 典型相关系数的检验用似然比法检验典型相关系数与零的差别是否显著，其原假设为小于此对典型变量典型相关系数的所有典型相关系数都为0，其p值依次为0.0010，0.0509和0.5089等等，如图7-5所示，说明前两对典型相关系数基本具有显著意义（在 0.0509的显著水平下）。因此，两组变量相关性的研究可转化为研究前两对典型相关变量的相关性

11、。,(4) 典型相关结构典型相关结构（下图）分别是各组原始变量与典型变量两两之间的相关系数矩阵。从相关系数判断，形态指标中除x5（0.0514）、x6（0.2433）外各变量与第一典型变量间的相关性都比较高，机能指标中除y2（0.0975）外各变量与第一典型变量间的相关性也都比较高。 x5与第二典型变量间的相关性比较高，y2与第二典型变量间的相关性比较高。 y1与前两个典型变量的相关系数为负值。,说明，第一对典型变量对肩宽x5和收缩压y2的解释作用不大。另外，从形态指标组的变量和机能指标组的典型变量之间，以及机能指标组的变量和形态指标组的典型变量之间的相关系数可见，各组变量与前两对典型变量

12、之间均有较强的相关。,(5) 标准化变量的典型相关变量的系数输出结果中还给出标准化变量的典型变量系数，如图所示。来自机能指标的第一典型变量CY1为(原始变量的右上角带“*”表示为标准化变量)： CY1 = 0.071672y1* 0.789642y2* + 0.567178y3*+ 0.508332y4*+ 0.533496y5* 容易看出，CY1主要代表了舒张压变音、舒张压消音、肺活量等指标。,来自形态指标的第一典型变量CX1为： CX1 = 0.4287x1* 0.09696x2* 0.16210x3* + 0.93745x4* + 0.23498x5* 0.18696x6* 易知，C

13、X1主要代表了胸围、身高和肩宽等指标。关于第二典型变量有： CY2 = 0.026533y1* + 1.213436y2* 0.535038y3* 0.186048y4*+ 0.455870y5* CX2 = 0.70270x1* 0.39985x2* + 0.84359x3* 0.99063x4* 0.06829x5* + 0.48310x6* 可见，CY2代表了收缩压和肺活量等指标；CX2代表了身高、体重、盆骨宽等指标。,(6) 典型冗余分析典型冗余分析(canonical redundancy analysis)表明，两对典型变量仍不能全面预测配对的那组变量。来自形态指标的标准方差被

14、对方两个典型变量（CY1、CY2）解释的累积方差比例为55.86%，来自机能指标的标准方差被对方两个典型变量（CX1、CX2）解释的累积方差比例为44.61%，如图所示。,7.1.3 用“分析家”实现典型相关分析 1. 实例【例7-2】某康复俱乐部对20名中年人测量了3项生理指标：体重(weight)、腰围(waist)、脉搏(pulse)和3项运动指标：引体向上(chins)、起坐次数(situps)、跳跃次数(jumps)。其数据列于表7-2中。,表7-2 某康复俱乐部测量的生理指标和运动指标设表中数据已经存放在数据集Mylib.slzb中，试分析生理指标和运动指标这两组变量间的相关性

15、。,2. 分析设置 1) 在“分析家”中打开数据集Mylib.slzb； 2) 选择菜单“Statistics（统计）”“Multivariate（多元分析）”“Canonical Correlation（典型相关分析）”，打开“Canonical Correlation”对话框； 3) 在对话框中将生理指标选为Set1，运动指标选为Set2，如图所示。,4) 单击“Statistics（统计）”按钮，打开“Canonical Correlation：Statistics”对话框；选中“Canonical redundancy statistics”复选框，并选择3个典型变量，如图所示。两次

16、单击“OK”按钮，得到计算结果。,3. 结果分析 (1) 典型相关系数及显著性检验第一部分的4列依次是：典型相关系数、校正的典型相关系数、近似的标准误以及典型相关系数的平方。从图7-10中可以看出，本例提取了3个典型相关系数，第一个典型相关系数CanR1 = 0.795608，其校正值为0.754056，标准误为0.084197，CanR12 = 0.632992，第一典型相关系数表示的是第一对典型相关变量之间的相关性。第二个典型相关系数为0.200556，第三个为0.072570。,第二部分是特征根以及相应的统计量，如图所示。可以看出，第一对典型变量所能解释的变异已占总变异的97.34%，其它两个典型相关变量的作用很小，一共只解释了总变异的3%，可以不予考虑。右边4列给出对典型相关系数的检验，结果表明，第一行

展开阅读全文