典型相关分析

上传人:re****.1 文档编号:456757472 上传时间:2023-03-25 格式:DOCX 页数:12 大小:74.69KB
返回 下载 相关 举报
典型相关分析_第1页
第1页 / 共12页
典型相关分析_第2页
第2页 / 共12页
典型相关分析_第3页
第3页 / 共12页
典型相关分析_第4页
第4页 / 共12页
典型相关分析_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《典型相关分析》由会员分享,可在线阅读,更多相关《典型相关分析(12页珍藏版)》请在金锄头文库上搜索。

1、第十四章 典型相关分析利用低维映射的方法可以更好的理解复杂的多变量数据结构。对于两个数据集的联合研 究,我们需要知道哪种低维映射方法能够用来发现两个样本的联合数据结构。典型性关分析 (canonical correlation analysis,CCA)是一种用来发现和两哈两个变量之间的多元统计分析标 准工具。该方法的基础技术是映射。首先定义一个指数(多元变量的映射),它与每个样本的其 他变量指标之间的相关性得到最大化。典型相关分析的目的就是最大化两个数据集的低维 那个蛇之间的关系(有相关系数度量)。通过两个变量之间的联合协方差分析可以得到典型 想关向量。该技术经常被应用于市场化例子中,以分析

2、价格因子与其他变量(比如设计、公 平等)的关联。最后会检验和评估所得到的这种关联性的显著程度。14.1 最有趣的线性组合 典型相关分析能够识别并量化两组变量之间的关联程度,该技术最早是由 Hotelling 在935 年提出的,他分析了算术的熟读和能力之间的相关程度。其他的例子分析了政府政策变 量与经济表现之间的联系,以及工作和公司特征之间的联系。假定我们有两个随机变量X e R。和Y g Rp,需要找到一个指标来描述X与Y之间的联系。典型相关分析是基于随机变量的线性指数(即线性组合):aT X 和 bT Y典型相关分析要找到向量a和b使得指数aTX和bTY的关系能够被量化且易于解释。更准确的

3、说,需要找到“最有趣的”映射a和b,来最大化两个指数的相关关系:P(a,b) = PaT bTY接下来,我么吗进一步考察两个映射之间的关系式P(a,b)。假定X - YLV V-工XX 工XY十工YX 工YY I I其中,协方差结构的子距阵由下式给出:Var(x)= 工 (q x q)XXVar(Y )=工(P x P)YYCov(X,Y)= E(X p)(Y V )t =工 XY =工 t (q x p)利用式(3.7)和式(3.26),可得:aT工 bXY -XYp (a,b)(aT 乙a)2(bT 乙b)z2XXYY因此,对于任意的cg R +,有P(ca,b) =p(a,b)。基于单位

4、不变性,我们可以重新调节映射a和b,以等价求解:MAXa,b=aT 工 bXY约束条件为aT 工a = 1XXbT 工b = 1XX对于该问题,定义K = Z-12 工 Z-12XX XY YY(14.3)回忆定理2.2中关于K (q*p)的奇异值分解(SVD),矩阵K可以分解为其中r = (y ,y)1,kA = (88 )1,k14.4)A = diag (九 12,.,九 12)1k由式14.3 和式 2.15,可知k = rank(K ) =XYYX且X X .入是n = KKt和n = KtK的非零特征值,Y和8是N和N的标准特征1 2 k 1 2 1 1 1 2向量。现在,对i=1

5、,.,k,定义向量a =工-12Y(14.5)iXX ib =丫 屯耳(14.6)iYY它们被称为典型相关向量(canonical correlation vectors)。利用这些典型相关向量,我们定义下述典型相关向量(canonical correlation vectors)耳=arXii(14.7)申=brYii(14.8)对于i=1,.k,数值p = X丄2被称为典型相关系数(canonicaliicorrelation coefficents)由式(14.4)奇异值分解的性质,我们有Covgq ) = aT乙 a =Yty = 1/=ji, jiXX ji j0i#j(14.9)C

6、ov(p p )也满足同样的关系式。下面的定理将告诉我们典型相关向量是式(14.1)最大化 i , j问题的解。定理14.1对于任意给定的r, 1 r k,最大化14.10)C (r) = max aT 2 ba,bXY约束条件为aT2a =1,bT2 b =1XX YYaT 2a = 0 for i=1,.,r-1i XX该最大化问题的解为C(r) = p =九12 (仅当a = a和b = b时成立)r rrr证明:该证明分三步来进行(i)固定a,基于b最大化下式;max( aT 2 b)2 = max(bT 2 a)(aT 2 b)b XY b YX XY约束条件为 maxbT 2 b

7、。由定理 2.5,改嘴大话由下列矩阵最大的特征值给出YX2 -12 aaT 2 YY YX XY由推论 2.2,唯一的非零特征值等于14.11)aT 2 2 -12 aXY YY YXii) 在满足该定理约束条件的前提下基于 a 来最大化式( 14.11)。 令Y = 2 12 a ,于:Y t 2-12 22 -i22 -12y = Y t Kt KXX XY YY YX XX 因此,求解下面的等价问题 maxYTNYY1XX(14.12)式(14.11)等约束条件为 Y TY = 1,Y TY = 0(i = 1,r -1)。i注意,Y是N的对应于钱r-1个最大特征值的特征向量。因此,依据

8、定 i1理9.3,式(14.12)的最大化问题的求解就是要使得Y等于对应于第Y个最大特征值的特征变量,即Y =Y或a = a。这样得到:ttC 2(r) =y tN y =X y t y = Xr 1 r r r r(iii)计算当a = a和b = b时的最大化值。由K的奇异值分解得到K =PY,所r r r r r以aT 工b =Y tKS = p 丫 =t 丫 =pr XY r r r r r r rLvi XY典型相关向量为a = i _12Y1XX 1b =i 1281YY 1最大化了下列典型变量之间的相关关系:q = aTX11p = bTY11典型变量耳和P的协方差在下一个定理中

9、给出。定理14.2令耳和P为第i个典型相关变量(i=1,k).定义P = (P . P ),i i 1, , k=叫代),则Var叶P其中A在式(14.4)中给出了。该定理显示典型相关系数 P =九12是典型变量q和P的协方差,且指数i i i iq 1 = aiTX和Pi = biTY之间有最大的协方差西=pi。下面的定理显示典型相关关系对于原始变量的线性转换是不变的定理14.3令Y* = VtY +v且X* = UtX +卩,其中u和V非奇异矩阵,则X*和Y*之间的典型相关与X和Y之间的典型相关关系是相同的。X*和Y*之间的典型相关向量 为a* = U-iai i(14.13)b* = V

10、-ibii总结T典型相关分析只要是用来识别变量XGRq和Y G Rp或者起子集之间可能的关系,起思路是要找到指数Y G RP和bTY使得P(a,b) = p最大化。aT XbT YT 在有约束条件下,通过令a二工一鼻丫和b二工一、可以解出典型相关的的最大化i XX i i YY i问题,其中Y.和代表KKt和KtK的特征向量(Ki i XX XY YYt向量a和b被称为典型相关向量。iit 指数耳=arX和p = brY被称为典型相关变量。i i i iT p =叮厂,P =旷是KKt和KtK的非零特征值的平方根,被称为典型相关关11kk系数。典型相关变量之间的协方差为Cov(n, p)=拓,

11、其中i=i, ,k.i i y iT 典型变量耳=aTX和p = bTY具有最大的协方差斗厂。i ii i1T当对原始变量X和Y进行线性转换时,其典型相关关系保持不变。14.2典型相关分析的应用设计运动性安全性易操作性-0.90-1.04-0.950.18 10.770.901.120.11-0.45-0.42-0.280.280.520.570.850.140.720.770.68-0.100.771.050.76-0.150.680.761.260.22-0.10-0.150.220.32-1. 040.1950. 9 01. 120. 11-1.111.19-0.420.820.78-0

12、.420.75-0.23-0.710.82-0.230.66S=-0.900.77-0.450.52-1.040.90-0.420.57-0.951.12-0.280.850.180.110.280.14因此,协方差矩阵分别为 1.41-1.111S =XX-1.111.91 J0. 7 8- 0. 7-10.-90s=XY-0. 420.8 20. 7 70.75 -0.23-0.45 -0.42-0.230.660.52 0.57-0.450.520.72 0.77s=YY-0.420.570.77 1.05-0.280.850.68 0.760.280.14 -0.10 -0.15-0.

13、28 0.280.850.140.68-0.100.76-0.151.26 0.220.22 0.32在实际应用中,需要计算协方差矩阵工 、工 和工。我们首先讲典型相关XX XY YY分析应用于表 B.7 的汽车数据,关于该数据集的一个 有意思的分析是价格变量与运 动性、安全性等变量之间的关系。具体来说,我们想知道不贬值价值和汽车价格与其 他所有变量之间的关系。例14.1数据矩阵X和Y F分别对应变量、价格、价值为定性和经济性、服务、设计、 是否运动汽车、安全性和易操作性,我们对此数据集应用典型相关分析。估计协方差矩阵 S 为价格 价值稳定性 经济性 服务1.41-1.110.78- 0.71我们注意到一个有趣的现象,即价值稳定性和价格之间的协方差为负,这是合理的 因为价格高于车子在市场价值增加上比中等价格的车子要高快。接下来我们估计K=,估计值为XX XY YYK = s-12 s s-12XX XY YY同时对K进行奇异值分解:= GLDT = (g1,g2)她(/吧,d2)这里,是K kt和ky K的特征值,K的轶为2,g和d分别是Kkt和ky K的 ii i特征向量。典型相关系数为r = z?12 = 0.98, r = ,2 = 0.891 1 2 2前两个典型变量之间的高度相关可以从图 14.1 中看出。第一个典型变

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 建筑资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号