典型相关分析方法研究

上传人:汽*** 文档编号:504343725 上传时间:2022-07-21 格式:DOC 页数:17 大小:229.50KB
返回 下载 相关 举报
典型相关分析方法研究_第1页
第1页 / 共17页
典型相关分析方法研究_第2页
第2页 / 共17页
典型相关分析方法研究_第3页
第3页 / 共17页
典型相关分析方法研究_第4页
第4页 / 共17页
典型相关分析方法研究_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《典型相关分析方法研究》由会员分享,可在线阅读,更多相关《典型相关分析方法研究(17页珍藏版)》请在金锄头文库上搜索。

1、典型相关分析方法研究 摘要:典型相关分析是研究两组变量(或两个随机向量)之间的相关关系的一种统计方法。与仅研究二个变量间线性关系的简单相关分析相比,典型相关分析能揭示出两组变量之间的内在联系,且两组变量的数目可以改变,这确定了它的重要性。随着计算机技术的发展,典型相关分析在各个行业试验研究中应用日渐广泛。本文主要介绍典型相关分析的基本原理与步骤并举例说明其应用。 关键词:典型相关分析;基本原理;步骤;应用 Abstract:Canonical correlation analysis is the study of two groups of variables (or two random

2、vectors) a statistical method the relationship between the. Compared with only the simple correlation analysis of linear relationship between two variables and canonical correlation analysis can reveal the internal relations between two sets of variables, and the number of two groups of variables ca

3、n change, this determines the importance of it. With the development of computer technology, the canonical correlation analysis system has been widely used in various industries in experimental study. This paper mainly introduces the basic principle and procedure of canonical correlation analysis an

4、d examples of its application. Key words:Canonical correlation analysis; basic principle; step; application一、引言典型相关分析(Canonical Correlation Analysis 简称CCA)是处理两个随机矢量之间相关性的统计方法,在多元统计分析中占有非常重要的地位。典型相关分析可有效反映两组统计数据之间的关系,有着重要的应用背景1。在实际分析问题中,当我们面临两组多变量数据,并希望研究两组变量之间的关系时,就要用到典型相关分析。 例如,为了研究扩张性财政政策实施以后对宏观经济

5、发展的影响,就需要考察有关财政政策的一系列指标如财政支出总额的增长率、财政赤字增长率、国债发行额的增长率、税率降低率等与经济发展的一系列指标如国内生产总值增长率、就业增长率、物价上涨率等两组变量之间的相关程度。二、典型相关分析的国内外研究现状典型相关分析及其改进算法已成功的应用到计算机视觉、模式识别、电子通信、生物医学、文本和图像检索和社会统计学等众多学科或领域。很多学者都在从事这方面的研究,并取得了良好的效果。孙权森2等将典型相关分析应用到特征融合中,利用典型相关分析达到了信息冗余的目的。陈拓3等利用典型相关分析方法来抑制主动声呐直达波干扰并取得了很好的效果。王磊4将多集典型相关分析用于雷达

6、辐射源指纹识别,与其他的方法相比具有更好的识别性能。张洁玉5结合广义典型相关分析,提出一种新的仿射不变特征提取方法,且在视点变换图形识别中得到很高的识别率。Kim6将张量典型相关分析应用于判别特征选择和动作检测,并取得很好的效果。Hwang7将多重集典型相关分析与主分量分析相结合,并将这种新方法应用到功能神经影像学中。Raul8提出一种新型正规化CCA方法,并将其应用于NCL-60微小核糖核酸癌症数据,取得了更稳定和更正确的结果。Wang9利用典型相关分析进行多元回归的收缩和选择。随着研究的深入,典型相关分析及其改进算法的理论知识越来越完善,应用的领域和学科越来越广。三、典型相关分析的基本思想

7、典型相关分析是研究两组变量间整体线性相关关系的多元统计方法,它借助于主成分分析的思想,对于每一组变量分别寻找线性组合,使生成的新综合变量能代表原始变量大部分的信息,同时与另一组变量生成的新的综合变量的相关程度最大,这样的一组新的综合变量称为第一对典型相关变量,同样的方法可以找到第二对、第三对,使各对典型相关变量之间不相关,典型相关变量之间的简单相关系数称为典型相关系数10。四、典型相关的数学描述考虑两组变量的向量 其协方差阵为 其中11是第一组变量的协方差矩阵11;22是第二组变量的协方差矩阵;是X 和Y 的协方差矩阵。如果我们记两组变量的第一对线性组合为: 其中: 所以,典型相关分析就是求a

8、1和b1,使uv达到最大。五、典型相关系数和典型变量 1.求法在约束条件: 下,求a1和b1,使uv达到最大。根据数学分析中条件极值的求法,引入Lagrange乘数,求极值问题,则可以转化为求 的极大值,其中和v是 Lagrange乘数12。 将上面的3式分别左乘a1和b1 得 第一对典型变量提取了原始变量X与Y之间相关的主要部分,如果这部分还不能足以解释原始变量,可以在剩余的相关中再求出第二对典型变量和他们的典型相关系数13。 在剩余的相关中再求出第二对典型变量和他们的典型相关系数。设第二对典型变量为: 在约束条件 求使 达到最大的a2和b22.典型变量的性质(1)同一组变量的典型变量之间互

9、不相关 因为特征向量之间是正交的。故X组的典型变量之间是相互独立的: Y组的典型变量之间是相互独立的: (2) 不同组变量的典型变量之间的相关性 不同组内一对典型变量之间的相关系数为: 同对相关系数为i,不同对则为零。3、 原始变量与典型变量之间的相关系数原始变量相关系数矩阵 X典、型变量系数矩阵 y典型变量系数矩阵 六、 典型相关分析适用性检验和典型相关系数的显著性检验 典型相关分析是研究两组变量之间相关关系的一种统计方法,但是并非所有的截面数据都适合于典型相关分析。典型相关分析是在原始数据满足一定条件和假设的前提下进行的,这些条件包括原始变量要服从多元正态分布,样本容量至少要大于原始变量个

10、数,这些假设包括两组变量之间要具有相关性,每组原始变量中能够综合出典型变量,即原始变量组内要有一定的相关性等14。若这些条件和假设无法满足,就不能进行典型相关分析。所以,应用典型相关分析时,首先要对其适用性进行检验分析。1.原始变量组内相关性检验进行典型相关分析时,既要求原始变量组内存在一定相关性,但是又不能存在高度的多重共线性。为此,典型相关分析适用性的检验,首先是从原始变量组内相关性检验开始的。具体包括:(1)原始变量组内存在一定相关性的假设检验。检验的方法可以借鉴主成分分析适用性的检验方法,运用巴特莱特球性检验来进行。巴特莱特球性检验是从原始数据整个相关矩阵出发进行的检验,检验的原假设是

11、相关矩阵为单位矩阵,如果不能拒绝原假设,说明原始变量之间相互独立,不适合进行典型相关分析。事实上,如果原始数据的相关矩阵是一个单位矩阵,各个原始变量之间互不相关,这时进行典型相关分析,则得到和原始变量个数一样的典型变量,而且典型变量就是各原始变量自身,显然是不适合进行典型相关分析的。(2)原始变量组内变量高度多重共线性的检验。典型相关分析要求原始变量组内要存在一定的相关性,但同时又要求原始变量之间不能有高度的多重共线性,否则也将不能产生典型变量,导致不能进行典型相关分析。检验原始变量组内是否存在高度的多重共线性,可以采用如下的检验方法:可决系数和方差膨胀因子法15。对于每组变量,分别以其中的每

12、个变量为被解释变量(因变量),其他变量为解释变量做回归,用R2j表示任意xj为被解释变量,其他变量为解释变量做线性回归的可决系数,由于R2j度量了xj与其他解释变量的线性相关程度,这种相关程度越强,说明变量间多重共线性越严重,反之,xj与其他变量的线性相关程度越弱,说明变量间的多重共线性越弱。病态指数法。根据矩阵行列式的性质,矩阵的行列式等于其特征根的连乘积。因而当行列式|XX|0时,矩阵XX至少有一个特征根近似于零。反之,可以证明,当矩阵XX至少有一个特征根近似为零时,X必存在多重共线性。多重共线性的程度常常用病态指数来衡量。 为特征根的病态指数,其中,这里的Km是XX的最大特征根。病态指数

13、度量了矩阵XX的特征根散布程度,可以用来判断多重共线性是否存在以及多重共线性的严重程度。一般认为,0CI10时,认为X没有多重共线性;10CI100时,认为X存在较强的多重共线性;当CI100时,则认为存在严重的多重共线性。 除上述外,还可以根据简单相关系数矩阵来判断原始变量内部是否存在严重多种共线性。一般而言,如果每两个解释变量的简单相关系数比较高,如大于019,则可认为存在着较严重的多重共线性。2.原始变量组间线性相关性检验 典型相关分析中,原始变量总体Z中的两组变量X,Y如果不相关,即COV(X,Y)=212=0,则有关两组变量典型相关的讨论以及典型相关系数的计算就毫无意义了。原始变量组

14、间相关性检验,即是典型相关分析适用性的检验,同时又是对典型相关系数的整体检验。所谓整体检验是同时检验所有的典型相关系数看是否有一个是显著的。 3.典型相关系数的显著性检验计算典型相关系数是典型相关分析中最重要的环节,但是并不是所有求出的典型相关系数都是显著相关的,这就必须要对典型相关系数的显著性进行检验。典型相关系数的本质上是两组原始变量中所提取的典型变量之间的相关,并不是两组原始变量之间的相关,典型相关系数是有多个维度的。所以典型相关系数检验采取的是维度递减检验,即从第一个典型相关系数的显著性检验开始,然后是第二、第三,一直到所有的各典型相关系数的显著性检验。这种维度递减检验实际是对部分总体典型相关系数为0的假设进行检验,仍然是一种多元检验。检验的原假设是,H(r)0:Kr=0(r=2,3,m,m=min(p,q),备择假设H1:至少一个典型相关系数。维度递减检验具体有两种做法:一是采用巴特莱特大样本的V2检验,一是采用近似的F检验16。七、对典型变量代表性的检验分析典型变量是由原始变量进行综合得到的,典型变量的代表性如何也关系着典型相关分析的效果好坏,因此还需要对典型变量代表性进行检验分析。典型变量代

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号