(改)4多元数据特征与相关分析

上传人:tian****1990 文档编号:74347872 上传时间:2019-01-27 格式:PPT 页数:63 大小:1.33MB
返回 下载 相关 举报
(改)4多元数据特征与相关分析_第1页
第1页 / 共63页
(改)4多元数据特征与相关分析_第2页
第2页 / 共63页
(改)4多元数据特征与相关分析_第3页
第3页 / 共63页
(改)4多元数据特征与相关分析_第4页
第4页 / 共63页
(改)4多元数据特征与相关分析_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《(改)4多元数据特征与相关分析》由会员分享,可在线阅读,更多相关《(改)4多元数据特征与相关分析(63页珍藏版)》请在金锄头文库上搜索。

1、第3讲 1.3 多元数据的数字特征与 相关分析,2、相关分析,偏相关分析,本节要求掌握知识点: 1、 二元,多元数据的数字特征: 均值,协方差矩阵,相关系数,相关关系的类型,相关系数的直观图示,相关关系的测度 (相关系数),对变量之间关系密切程度的度量 对两个变量之间线性相关程度的度量称为简单相关系数 若相关系数是根据总体全部数据计算的,称为总体相关系数 若是根据样本数据计算的,则称为样本相关系数,r,相关关系的测度 (相关系数取值及其意义),r 的取值范围是 -1,1 |r|=1,为完全相关 r =1,为完全正相关 r =-1,为完全负正相关 r = 0,不存在线性相关关系 -1r0,为负相

2、关 0r1,为正相关 |r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切,选择不同的方法计算相关系数,Pearson:双变量正态分布资料,连续变量 Kendall: 资料不服从双变量正态分布或 总体分布未知,等级资料 Spearman:等级资料(非参数检验)。,1.3 多维数据的数字特征及相关分析,1.3.1 二维数据的数字特征及相关系数 设 是二维总体,从中取得样本数据 , , , 数据观测矩阵,1.样本数据的数字特征与相关系数,记,均值向量:,记,,,为变量X,Y的观测数据的方差.,记,为变量X,Y的观测数据的协方差.,观测数据的协方差矩阵,且有,S0.,样本相关系数(Pears

3、on相关系数),且有 .,2. 二维总体的相关系数,设 是二维总体,定义总体相关系数为 由于观测数据的相关系数是总体相关系数的相合估计,故当n充分大时,有,3.相关分析,当二元总体的两个分量X与Y不相关,即 时,而利用样本数据算得的相关系数 ,这时用样本数据相关系数来度量 X与Y的关联性是不合适的. 因此,需要做假设检验 1) 2)检验统计量,3. 相关分析,3)当H0为真时,统计量 tt(n2) 检验p的值为 对于给定的显著水平,若p ,则拒绝H0,这 时,认为X与Y相关,用样本数据算得的相关系数 反映了两变量的线性关联性的强弱. 式中的t0为通过样本数据算得的统计量t的值.,SPSS操作:

4、相关分析 1.做散点图:标题、标目、散点 Graphs-Scattert-Simple-Defind 双击Title加标题、标目 2. 相关分析: Analyze-Correlation-Bivariate-Variables DASC操作,例1.2:一个产科医师发现孕妇尿中雌三醇含量与产儿的体重有关。于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。因此收集了31例待产妇24小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。问尿中雌三醇含量与产儿体重之间相关系数是多少?是正相关还是负相关? 分析问题:目的、变量、关系,待产妇尿雌三醇含量与产儿体重关系,计算

5、结果,从计算结果可以知道,31例待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数是0.61。,问题:我们能否得出结论:待产妇尿中雌三醇含量与产儿体重之间成正相关,相关系数是0.61?为什么?,对例子中相关系数必须进行假设检验,例中的相关系数r等于0.61,说明了31例样本中雌三醇含量与出生体重之间存在相关关系。但是,这31例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。 因为,总体相关系数()为零时,由于抽样误差,从总体抽出的31例,其r可能不等于零。 这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。,H0 : =0 H1 : 0 =0

6、.05 r=0.61, n=31, 代入公式 t=,=n-2=31-2=29,t=4.14,查t值表,t0.05 (29) =2.045,查t值表, t0.05(29) =2.045, 上述计算t=4.142.045,由t所推断的P值小于0.05,按=0.05水准拒绝,接受,认为临产妇24小时内尿中雌三醇浓度与产儿体重之间有正相关关系。,等级相关 rank correlation,适用资料: 不服从双变量正态分布 总体分布类型未知 原始数据用等级表示,等级相关系数 qxy(即Spearman Correlation Coefficient) 反映两变量间相关的密切程度与方向 。,3.Spear

7、man相关系数,秩的概念 将一容量为n的样本观测值x1,x2,xn 按升序排列成 x(1)x(2)x(n) 若xi = x(k),则称xi 的秩为k,记作Ri,称R1, R2,Rn为秩统计量.,3.Spearman相关系数,如下的样本观测值 -0.8, -3.1, 1.1, -5.2, 4.2 按升序排列成 -5.2, -3.1, -0.8, 1.1, 4.2 秩统计量R1,R2,Rn的取值为 3, 2, 4, 1, 5,3.Spearman相关系数,设二维总体(X, Y)T 的样本观测数据为 (x1, y1)T , (x2, y2)T , , (xn, yn)T 对于分量X,其样本数据x1,

8、x2,xn的秩统计量是 R1,R2,Rn,3.Spearman相关系数,对于分量Y,其样本数据y1,y2,yn的秩统计量是 S1,S2,Sn 记,3.Spearman相关系数,Spearman相关系数定义为 Spearman相关系数qxy就是把Pearson相关系数rxy 中X,Y的样本值用X,Y的秩来代替的.,3.Spearman相关系数,由于 经过某些运算,可得 可以推出,Spearman相关系数具有Pearson相关系 数一样的性质,如|qxy| 1.,1.3.2多维数据的数字特征及相关矩阵,设 是 p维总体. 样本数据,样本数据观测矩阵,记,称为第i个样品.,X的p个列分别是变量X1,

9、X2, ,Xp的n个观测数据., 第j列数据的均值,样本数据观测矩阵可以写成, 第j列数据的方差, 第j, k列数据的协方差,并且有,样本观测数据的均值向量,样本观测数据的协方差矩阵, X的第j, k列数据的Pearson相关系数,可见,rjj=1,X的Pearson相关矩阵,注意到 ,样本协方差矩阵成为,若记,则有,,S = DRD, 对数据作标准化变换,标准化数据的观测矩阵是,标准化变换后的样品,观测矩阵可以写成,注意到,就有,所以,即,S* = R,就是说,从标准化数据观测矩阵X*计算得到的协方差阵就是由原数据观测矩阵X计算得到的相关阵。,1.3.3 总体的数字特征、相关矩阵及 多维正态

10、分布,总体的数字特征 p维总体: 总体CDF: 连续型总体的PDF: 其中,,总体均值向量,其中,,总体协方差矩阵,其中,总体分量Xj与Xk的协方差,总体分量Xj与Xk的相关系数,总有,jj = 1,|jk| 1.,总体的相关矩阵为,若记,则有,2.均值向量与协方差阵的性质,设,设A,B为常量矩阵,则,E(AX) = AE(X) = A,Cov(AX) = ACov(X)AT = AAT,Cov(AX, BY) = ACov(X, Y)BT,这里,Cov(X, Y) = E(X-E(X)(Y E(Y),称为X与Y的协方差阵.,当n充分大时,有,3.多维正态分布,若多维总体具有概率密度,则称总体

11、X服从p维正态分布,记为,X ,多维正态分布的性质, 若 Y =AX + b,其中Alp, bl1为常量矩阵,则,设 X ,Y ,X(1) ,,X(2) , 将X, 和作如下划分,这里,p1 + p2 = p,且 ,则, 正态总体X的两个分量Xi和Xj相互独立的充要条件是ij = 0 (i j).,又若,则X(1)和X(2)相互独立的充要条件是,1、概念,当有多个变量存在时,为了研究任何两个变量之间的关系,而使与这两个变量有联系的其它变量都保持不变。即控制了其它一个或多个变量的影响下,计算两个变量的相关性。,2、偏相关系数,偏相关系数是用来衡量任何两个变量之间的关系的大小。,Analyze-C

12、orrelation-Partial 把分析变量选入 Variable 框 把控制变量选入 Controlling for 框 点击 Options 点击 Statistics:选择 Mean and standard deviation Zero-order correlation Continue OK,3.SPSS操作:偏相关分析,第1章例3 例3:已知某地29名13岁男童身高X1(cm)、体重X2(kg)和肺活量Y(ml), 请计算身高与肺活量,体重与肺活量的相关关系。,身高与肺活量的简单相关系数,1、身高与肺活量的简单相关系数,2、体重与肺活量的简单相关系数,3、身高与体重的简单相关

13、系数,Variable Mean Standard Dev Cases X1( 身高 ) 152.5759 8.3622 29 Y (肺活量) 2206.8966 448.5541 29 X2 ( 体重 ) 37.3069 5.6704 29,例子偏相关分析结 果:,体重为控制变量,身高与肺活量的偏相关系数,P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for X2 (体重) Y(肺活量) X1(身高) Y (肺活量) 1.0000 .2361 ( 0) ( 26) P= . P= .226 X1

14、 (身高) .2361 1.0000 ( 26) ( 0) P= .226 P= .,P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for X1(身高) Y(肺活量) X2(体重) Y 1.0000 .4152 ( 0) ( 26) P= . P= .028 X2 .4152 1.0000 ( 26) ( 0) P= .028 P= .,身高作为控制变量,肺活量与体重的偏相关系数,相关分析实际应用注意事项,1.实际意义 进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析

15、。 2.相关关系 相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系。,3.利用散点图 对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行相关分析。 4.变量范围 相关分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不能得出两变量的相关关系和原来的回归关系。,第1章总结 当手中有了一个数据,首先要对它有个直观的概念。要心中有数。如果数据来自一个总体,首先要看它的大概的分布形状。利用直方图,盒子图(又称箱线图),茎叶图等,看该分布是否呈现出对称性,是否有很长的尾部,是否有远离数据主体的点等等。如果研究对象是多样本模型,数据来自不同总体,除了上面所说的对一个样本所作的分析和处理之外,还要看这些样本的形状是否类似;要作各种二维(诸如散点图,直方图和盒子图)或三维图来发现这些样本之间的联系或相关性。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号