谈谈统计里的相关分析.doc

上传人:hs****ma 文档编号:548292526 上传时间:2022-10-28 格式:DOC 页数:6 大小:67KB
返回 下载 相关 举报
谈谈统计里的相关分析.doc_第1页
第1页 / 共6页
谈谈统计里的相关分析.doc_第2页
第2页 / 共6页
谈谈统计里的相关分析.doc_第3页
第3页 / 共6页
谈谈统计里的相关分析.doc_第4页
第4页 / 共6页
谈谈统计里的相关分析.doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《谈谈统计里的相关分析.doc》由会员分享,可在线阅读,更多相关《谈谈统计里的相关分析.doc(6页珍藏版)》请在金锄头文库上搜索。

1、谈谈统计里的相关分析时涛摘要:相关分析是统计分析中非常重要的分析方法之一。本文详细介绍了相关系数的概念、分类,并指出了应用相关分析时的注意事项,以期同仁们在应用时有所借鉴。关键字:相关系数;相关分析任何事物的存在都不是孤立的,而是相互联系、相互制约的。在医学领域中的身高与体重、体温与脉搏等,在经济领域中的货币发行量与经济增长、利率与房价指数等都存在一定的联系。说明客观事物相互间关系的密切程度并用适当的统计指标表示出来,这个过程就是相关分析。值得注意,事物之间有相关,不一定是因果关系,也可能仅是伴随关系。但如果事物之间有因果关系,则两者必然相关。本文谈论的重点是相关的分类及正确应用相关分析的注意

2、事项。一相关分析概念相关关系(Correlation)是一种非确定性的关系,例如,以变量X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与小麦产量,两者之间显然不是独立的,而又没有确切到可由其中的一个变量去精确地决定另一个变量的程度,这就是相关关系。研究相关关系的分析方法即相关分析(Correlation Analysis)。相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。二相关分析分类1、线性相关分析研究两个变量间线性关系的程度。用相关系数r来描述。包括正相关、负相关和零相关。(1)正相关:如果x,y变化的方向一致,如身高与体重的关系,r0

3、;一般地, |r|0.95 存在显著性相关; |r|0.8 高度相关; 0.5|r|0.8 中度相关; 0.3|r| rs2 = rs3;即正相关校正后可使相关系数绝对值减小,P值增大;负相关校正后可使相关系数绝对值增大,P值减小。2、偏相关分析研究在多变量的情况下,当控制其他变量影响后,两个变量间的直线相关程度。又称净相关或部分相关。例如,偏相关系数 r13.2表示控制变量X2的影响之后,变量X1和变量X3之间的直线相关。偏相关系数较简单直线相关系数更能真实反映两变量间的联系。如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系。3、距离分析距离分析是对观测量之间或变量之间相似

4、或不相似程度的一种测度,是一种广义的距离。分为观测量之间距离分析和变量之间距离分析。(1)不相似性测度: 对等间隔(定距)数据的不相似性(距离)测度可以使用的统计量有Euclid欧氏距离、欧氏距离平方等; 对计数数据使用卡方; 对二值(只有两种取值)数据,使用欧氏距离、欧氏距离平方、尺寸差异、模式差异、方差等。(2)相似性测度: 等间隔数据使用统计量Pearson相关或余弦; 测度二元数据的相似性使用的统计量有20余种。4、复相关研究一个变量 X0与另一组变量 (X1,X2,Xn)之间的相关程度。例如,职业声望同时受到一系列因素(收入、文化、权力)的影响,那么这一系列因素的总和与职业声望之间的

5、关系,就是复相关。复相关系数R0.12n的测定,可先求出 X0对一组变量X1,X2,Xn的回归直线,再计算X0与用回归直线估计值悯之间的简单直线回归。复相关系数为R0.12n的取值范围为0R0.12n1。复相关系数值愈大,变量间的关系愈密切。设X=(X1|X2,XP)的协方差矩阵为:,称为X1与X2,XP之间的复相关系数,记作。相比较而言,可以把两个一维随机变量间的相关系数称为简单相关系数。5、典型相关分析典型相关分析(canonical correlation analysis),是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。其基本思想是仿照主成分分析法中把

6、多变量与多变量之间的相关化为两个变量之间相关的做法,首先在每组变量内部找出具有最大相关性的一个线性变量组合,然后再在每组变量内找出第二对线性组合,使其本身具有最大的相关性,并分别与第一对线性组合不相关。如此下去,直到两组变量内各变量之间的相关性被提取完毕为止。有了这些最大相关的线性组合,则讨论两组变量之间的相关,就转化为研究这些线性组合的最大相关,从而减少了研究变量的个数。在经济生活中,常常使用价格指数、消费指数的概念。我们把各种商品的价格进行综合计算,比如取作为反映物价水平的综合指数,称为消费指数,现着手选择a1,a2,b1,b2,使U和V具有最大相关性,那么(U ,V)就可以整体上反映出价

7、格与消费之间的相关关系,这种处理方法就是典型相关分析。三、应用注意事项1、不同类型数据的相关系数的选择数据的性质和特点决定了在进行相关分许时相关系数的不同:定类定类变量之间的相关性用(Lambda)以下的系数,Contingency coefficient / Phi and Cramers V / Lambda/Uncertainty coefficient。举例:调查城镇居民在业与否与政治面貌的关系;定类定序变量之间的相关性用(Lambda)系数,举例:调查城镇居民在业与否与企业所有制的关系;定类定距变量之间的相关性用Eta系数,举例:调查城镇居民在业与否与文化素质的关系;定序定序变量之间

8、的相关性用Gamma / Somersd / Kendalls tau-b / Kendalls tau-c / Spearman系数;定比定比变量之间的相关性用Correlation(Pearson Correlation)系数,举例:妇女年龄与文化素质的相关性。2、主成分分析中相关分析的运用主成分分析是通过降低空间维度来体现所有变量的特征使得样本点分散程度极大,即寻找多个变量的一个加权平均来反映所有变量的一个整体性特征。一般来说相关性越是高,做主成分分析就越是成功。评价相关性的方法就是相关系数,由于是多变量的判定,则引出相关系数矩阵。 评价主成分分析的关键不在于相关系数的情况,而在于贡献率

9、,也就是根据主成分分析的原理,计算相关系数矩阵的特征值和特征向量。相关系数越是高,计算出来的特征值差距就越大,贡献率等于前n个大的特征值除以全部特征值之和,贡献率越是大说明主成分分析的效果越好。反之,变量之间相关性越差。 3、回归分析中相关分析的运用回归分析与相关分析的联系:研究在专业上有一定联系的两个变量之间是否存在直线关系以及如何求得直线回归方程等问题,需进行直线相关和回归分析。从研究的目的来说,若仅仅为了了解两变量之间呈直线关系的密切程度和方向,宜选用线性相关分析;若仅仅为了建立由自变量推算因变量的直线回归方程,宜选用直线回归分析。从资料所具备的条件来说,作相关分析时要求两变量都是随机变

10、量(如:人的身长与体重、血硒与发硒);作回归分析时要求因变量是随机变量,自变量可以是随机的,也可以是一般变量(即可以事先指定变量的取值,如:用药的剂量)。 在统计学教科书中习惯把相关与回归分开论述,其实在应用时,当两变量都是随机变量时,常需同时给出这两种方法分析的结果。回归分析和相关分析都是研究变量间关系的统计学课题,它们的差别主要是:(1)在回归分析中,y被称为因变量,处在被解释的特殊地位,而在相关分析中,x与y处于平等的地位,即研究x与y的密切程度和研究y与x的密切程度是一致的;(2)相关分析中,x与y都是随机变量,而在回归分析中,y是随机变量,x可以是随机变量,也可以是非随机的,通常在回

11、归模型中,总是假定x是非随机的;(3)分析的研究主要是两个变量之间的密切程度,而回归分析不仅可以揭示x对y的影响大小,还可以由回归方程进行数量上的预测和控制。参考文献:1袁卫等.统计学.高等教育出版社,北京,2009年第三版。2阮桂海等.统计分析应用教程.清华大学出版社,北京,2003年7月第一版。3黄润龙等.数据统计与分析技术spss软件实用教程. 高等教育出版社,北京,2004年7月第一版。时涛(1981.9),男,山东济南人,经济学硕士,讲师,泰山医学院管理学院统计教研室任教,研究方向市场调查、数据挖掘。联系方式:山东省泰安市泰山区渿河西路128号2排4户邮政编码:271000联系电话:13515381591,0538-6759289E-mail : 1

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号