相关性分析中的可靠性

上传人:ldj****22 文档编号:45689155 上传时间:2018-06-18 格式:PDF 页数:6 大小:1.28MB
返回 下载 相关 举报
相关性分析中的可靠性_第1页
第1页 / 共6页
相关性分析中的可靠性_第2页
第2页 / 共6页
相关性分析中的可靠性_第3页
第3页 / 共6页
相关性分析中的可靠性_第4页
第4页 / 共6页
相关性分析中的可靠性_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《相关性分析中的可靠性》由会员分享,可在线阅读,更多相关《相关性分析中的可靠性(6页珍藏版)》请在金锄头文库上搜索。

1、第19卷 第5期大 学 化 学2004年10月相关性分析中的可靠性翟红林 陈兴国 胡之德(兰州大学化学化工学院 兰州730000)摘要 相关性分析是认识变量间相互关系常用的统计学方法。然而变量间正确的相关关系应建立在一定的可靠性基础之上。本文针对相关性研究中相关关系的可靠性问题进行了较为全面的分析与讨论,明确了相关系数与回归系数等的本质含义及进一步通过相应的统计检验以分析其可靠程度。1 引言相关性分析是认识变量间相互关系常用的统计学方法,主要涉及相关分析和回归分析等。相关分析主要反映和说明变量之间相互关系的密切程度和变化方向,回归分析则用于确定变量间的数量关系。有些文献在进行相关分析、 回归分

2、析等之后,仅根据所得到的相关系数就简单地确定了变量间的相关关系或回归分析结果的可靠程度,并依此对实验结果予以解释。然而变量的选取、统计方法的引用及各种统计量数据对于分析的结论都有直接的影响。如果对所采用的统计方法本身的特性及其应用前提缺乏清楚的理解和认识,就有可能得出不可靠的、 甚至是错误的结论。在进行相关性研究时,如果不进行相应的检验,其可靠性是值得怀疑的,至少结论是不完整的。例如,多元线性回归方法要求自变量彼此应相互独立,而在实际问题中却存在程度不同的相互作用。因此,回归结果是否准确、 自变量间的相互作用对分析结论存在多大的影响等问题就只能借助可靠性分析。关于相关性研究中相关关系的可靠性问

3、题已引起了人们注意,并提出了多种判定方法14。本文从数理统计意义的角度出发,在明确了相关系数、 回归系数等的本质含义基础上,对这一问题进行分析与讨论。2 相关系数相关系数可分为简单相关系数与复相关系数。相关分析是研究变量之间的相互关系,表明其变动的规律性。但通过相关系数所表示的相关关系只能回答变量之间的紧密程度和方向,而不能揭示变量之间的数量关系。回归分析是通过建立一定数学模型而确定变量间数量变化关系并对因变量进行预测或估计的统计分析方法。对于两变量的相关关系的估计用简单相关系数表征;对于多变量体系中一个变量与其他所有变量的相关关系估计则用复相关系数表示。在实际工作中,对于非线性关系往往通过各

4、种变换转化为线性关系。因此,一元及多元线性回归最为常用。152. 1 简单相关系数对于变量x、y ,其简单相关系数r的基本计算公式是:r =( xi-x) ( yi-y)( xi-x)2( yi-y)2r 1简单相关系数r用于描述变量x与y之间的线性相关关系。r的绝对值越接近1,表明x与y的线性关系越强。r值的正负反映两变量间的相关方向, r 0表示正相关, rF( k , n-k- 1) ,则否定H0而接受H1,即回归效果显著。对于相关分析,相关系数可信;对于回归分析, (复)决定系数可靠。如果FF( k , n-k- 1) ,则否定H1而接受H0,即回归效果不显著。可能的原因有:尚有其他不

5、可忽视的重要自变量没有纳入回归。对简单相关系数而言,两变量无线性关系;对复决定系数来说,可能存在强的多重相关。不相关。3. 2 对回归系数的检验回归方程中自变量前的系数称为回归系数。虽然经过对回归方程的F检验可以确定回归效果的显著,但是否每个自变量都对因变量有显著影响还必须要对回归系数进行双边t检验,即检验回归系数是否显著不为0。设X =1 x11 x12 x1k1 x21 x22 x2k1 x31 x32 x3k 1 xn1 xn2 xnk,令C = ( XX)-1,则t =bjSS E n -k -1Cjj。其中Cjj为矩阵C中相应的对角线元素。原假设H0: bj= 0 ;对立假设H1:

6、bj0。在给定的检验水平、 自由度(1, n-k- 1)查t分布表得到拒绝域的临界值t2( n-k-1),并做如下决策:如果tt2( n-k- 1) ,则否定H0而接受H1,即回归系数显著不为0;否则应否定H1而接受H0,即回归系数显著为0。回归系数显著为0所对应的自变量应予以剔除,重新进行回归分析。对于相关性分析的检验也可用原假设成立的概率P值来表征。很多统计分析软件(如SPSS、SAS等)都会在给出统计量结果的同时给出该P值。不少人将回归系数作为相应的自变量对因变量影响的权重,进而判定每个自变量的重要性。尽管回归分析的各种检验都能通过,但实际上,由于各自变量间都存在着程度不同的相关性,回归

7、系数只能大致反映自变量的重要性,其精度取决于各自变量之间的独立程度。对于逐步回归结果的判断更应谨慎,否则就可能得出错误的结论。逐步回归分析常用于对多变量的筛选,但入选的变量并非一定是最重要的,但却一定是最具有代表性的。这种情形多发生于变量间存在较强的多重相关。如果忽视这点,就可能将最具有代表性的自变量认定是对因变量影响最大的变量。此外,由于单位或数量级的不同,多个变量的变异往往不能正确反映数据本身的变化。为45消除含有虚假的变异对分析结果造成的影响,使每个变量都具有同等的表现力,对数据进行预处理是必要的。常用的有线性无量纲化和标准化等处理方法。线性无量纲化是将实际值通过线性变换映射至指定区间(

8、如归一化) ;标准化方法使数据分布于0的两侧,具有均值为0、 方差为1的特点,在消除了量纲的同时又为数据的后处理提供了便利。4 计算示例以Hald水泥凝固放热与其化学成分的关系数据5为例进行计算分析。为消除量纲及数量级对分析结果的影响,先对原始数据进行标准化处理,结果见表2。常用处理方法及其主要结果见表3。表2 经标准化处理的数据x1x2x3x4y- 0. 0785- 1. 4237- 0. 90071. 7923- 1. 1249- 1. 0985- 1. 23090. 50441. 3144- 1. 40410. 60150. 5042- 0. 5885- 0. 59740. 59010.

9、 6015- 1. 1024- 0. 58851. 0156- 0. 5200- 0. 07850. 2472- 0. 90070. 17920. 03170. 60150. 4400- 0. 4324- 0. 47790. 9158- 0. 75851. 46820. 8166- 1. 43380. 4837- 1. 0985- 1. 10241. 59730. 8364- 1. 5238- 0. 92850. 37570. 9728- 0. 4779- 0. 15442. 3015- 0. 0741- 1. 2130- 0. 23901. 3612- 1. 0985- 0. 52401.

10、75340. 2390- 0. 77260. 60151. 1469- 0. 4324- 1. 07541. 18830. 43151. 2754- 0. 5885- 1. 07540. 9291表3 常用处理方法及其主要结果处理方法入选自变量R2方程F检验值( P值)对应系数的t检验P值多元线性回归x4, x3, x1, x20.982111.5(0.000)0.844,0.896,0.071,0.501 逐步回归x4, x10.972108.22(0.000)0.000,0.000 向前选择回归x4, x10.972108.22(0.000)0.000,0.000 向后剔除回归x1, x2

11、0.9791.863(0.205)0.000,0.000 主成分回归p2, p10.2501.665(0.238)0.476,0.138贡献率: p155.89%p3, p2, p10.982165.07(0.000)0.000,0.180,0.001p239.40%p3, p10.978221.8(0.000)0.000,0.000p34.66%p30.89897.05(0.000)0.000偏最小二乘法t10. 968330. 12(0. 000)0. 000这是一个典型的多重强相关实例,变量间的偏相关系数均大于0. 95且相应的P值都为0.000。从表3可以看出,多元线性回归复决定系数R

12、2高达0.982且方程通过F检验,但回归系数t检验P值表明回归方程不可靠。用逐步回归及向前选择回归得到相同结论且通过F检验与t检验,但向后剔除回归却选择了另外两个自变量。这说明多重强相关使逐步回归等变量选择方法不再适用。主成分回归被认为是避免共线性的方法。然而,选用第1、 第2主成分进行回归得到的方程令人失望,而贡献率仅为4.66%的第3主成分却有较好的回归表现。55偏最小二乘法提取的有效成分t1所建立的回归方程通过了检验。对表3中各种处理方法的结果进行比较可知:主成分回归只是减弱而不能避免变量间的 多重相关,逐步回归等变量选择方法与多元线性回归受变量间多重相关影响较大;回归方程首先反映的是变

13、量间的表观数量关系,多重强相关已经难以进行变量筛选,而且也很难确定各变 量的重要程度。通过以上分析不难看出,简单相关系数是两变量线性相关程度的估计值,回归方程的(复) 决定系数表征了计算值与实际值线性相关关系。回归方程、 相关系数或(复)决定系数及回归 系数的可靠性必须经过相应的检验才能确认。通过回归对自变量作用的确定应建立在对自变 量间多重相关性正确认识的基础之上,必要时可采用PCR、PLSR等方法加以分析判断。参 考 文 献1 Shnitnikov A S.Measurement Techniques,2001 ,44(2) :1352 张建华.郑州工业大学学报,2001 ,22(3) :

14、723 范文正.统计与决策,2002 ,6 :154 许禄,化学计量学方法.北京:科学出版社,19955 Hald A. Statistical Theory with Engineering Applications. New York:Wiley ,1952微量元素与健康研究2005年征订启事微量元素与健康研究 是国内外公开发行的综合性学术刊物,双月刊,创办于1984年。原名 微量元素,1992年更名为 微量元素与健康研究,是国内创刊最早的惟一一份微量元素学科专业期刊。本刊集理论研究、 临床应用、 预防医学及教学实践经验于一体,内容丰富、 信息量大、 可读性强。栏目包括了微量元素研究的各行

15、业、 各学科与前沿、 交叉多学科,全面报道与常量元素、 微量元素有关的研究项目、 科研动态及新技术、 新方法、 新成果等。是从事临床、 科研、 中西医结合、 中医中药、 预防医学、 环保、 商检以及医疗保健的广大科技工作者必需的参考工具以及发表研究成果的重要园地。在该领域本刊已成为专业工作者获取我国微量元素情报信息的重要来源,是我国微量元素学科的重点期刊。设置的栏目有:“基础研究” 、“现代医学” 、“妇儿疾患与保健” 、“中医中药” 、“食品营养与食物链” 、“调查研究” 、“实验技术” 、“综述 讲座” 、“元素专论” 、“短篇论著” 等。本刊自2003年起,已由原来的季刊改为双月刊,逢双

16、月28日出刊。2005年订价仍为每期8. 00元,全年6期订费为48. 00元(含邮资)。全国各地邮局均可订阅。本刊国内统一刊号: CN5221081/ R ,国际标准刊号:ISSN1005 - 5320。邮发代号: 66253。国外发行代号: 4813BM。为方便读者订阅,本刊编辑部全年办理邮订业务,遗失补寄。欢迎订阅本刊。光盘检索:中国学术期刊光盘(医药卫生版)版邮订地址:贵阳市 市东路50号 微量元素与健康研究 编辑部邮 编: 550002联系电话: (0851)5928845 , 5616973E2mail: wyjk chinajournal. 网 址: http :/ / wyjk.chinajournal. http :/ / wlysyjkyj.periodicals. 65

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号