4多元数据特征与相关分析

上传人:宝路 文档编号:48013609 上传时间:2018-07-08 格式:PPT 页数:63 大小:1.33MB
返回 下载 相关 举报
4多元数据特征与相关分析_第1页
第1页 / 共63页
4多元数据特征与相关分析_第2页
第2页 / 共63页
4多元数据特征与相关分析_第3页
第3页 / 共63页
4多元数据特征与相关分析_第4页
第4页 / 共63页
4多元数据特征与相关分析_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《4多元数据特征与相关分析》由会员分享,可在线阅读,更多相关《4多元数据特征与相关分析(63页珍藏版)》请在金锄头文库上搜索。

1、 第3讲 1.3 多元数据的数字特征与相关分析2、相关分析,偏相关分析本节要求掌握知识点: 1、 二元,多元数据的数字特征:均值,协方差矩阵,相关系数相关关系的类型相关关系非线性相关线性相关正 相 关正 相 关负 相 关负 相 关完全相关不相关 不相关不相关 负线性相关负线性相关 正线性相关正线性相关 非线性相关非线性相关 完全负线性相关完全负线性相关完全正线性相关完全正线性相关 相关系数的直观图示相关关系的测度 (相关系数) 对变量之间关系密切程度的度量 对两个变量之间线性相关程度的度量称为简 单相关系数 若相关系数是根据总体全部数据计算的,称 为总体相关系数 若是根据样本数据计算的,则称为

2、样本相关 系数,r相关关系的测度 (相关系数取值及其意义 ) r 的取值范围是 -1,1 |r|=1,为完全相关 r =1,为完全正相关 r =-1,为完全负正相关 r = 0,不存在线性相关关系 -1r2.045,由t 所推断的P值小于0.05,按=0.05水准拒绝,接受, 认为临产妇24小时内尿中雌三醇浓度与产儿体重之间 有正相关关系。 等级相关rank correlation 适用资料: 不服从双变量正态分布 总体分布类型未知 原始数据用等级表示等级相关系数 qxy(即Spearman Correlation Coefficient) 反映两变量间相关的密切程度与方向 。3.Spearm

3、an相关系数 秩的概念将一容量为n的样本观测值x1,x2, xn按升序排列成x(1)x(2)x(n) 若xi = x(k),则称xi 的秩为k,记作Ri,称R1 , R2,Rn为秩统计量.3.Spearman相关系数 如下的样本观测值-0.8, -3.1, 1.1, -5.2, 4.2按升序排列成-5.2, -3.1, -0.8, 1.1, 4.2 秩统计量R1,R2,Rn的取值为 3, 2, 4, 1, 53.Spearman相关系数 设二维总体(X, Y)T 的样本观测数据为 (x1, y1)T , (x2, y2)T , , (xn, yn)T对于分量X,其样本数据x1,x2,xn 的秩

4、统计量是 R1,R2,Rn3.Spearman相关系数 对于分量Y,其样本数据y1,y2,yn的秩 统计量是 S1,S2,Sn记3.Spearman相关系数 Spearman相关系数定义为Spearman相关系数qxy就是把Pearson相关系数 rxy 中X,Y的样本值用X,Y的秩来代替的. 3.Spearman相关系数 由于经过某些运算,可得可以推出,Spearman相关系数具有Pearson相关 系 数一样的性质,如|qxy| 1.1.3.2多维数据的数字特征及相关矩阵设 是 p维总体. 样本数据样本数据观测矩阵记称为第i个样品.X的p个列分别是变量X1,X2, ,Xp的n个观测数据.

5、第j列数据的均值样本数据观测矩阵可以写成 第j列数据的方差 第j, k列数据的协方差并且有样本观测数据的均值向量样本观测数据的协方差矩阵 X的第j, k列数据的Pearson相关系数可见,rjj=1,X的Pearson相关矩阵注意到 ,样本协方差矩阵成为若记则有,S = DRD 对数据作标准化变换标准化数据的观测矩阵是标准化变换后的样品观测矩阵可以写成注意到就有所以即S* = R就是说,从标准化数据观测矩阵X*计算得到的 协方差阵就是由原数据观测矩阵X计算得到的 相关阵。1.3.3 总体的数字特征、相关矩阵及 多维正态分布 总体的数字特征p维总体:总体CDF:连续型总体的PDF:其中,总体均值

6、向量其中,总体协方差矩阵其中,总体分量Xj与Xk的协方差总体分量Xj与Xk的相关系数总有,jj = 1,|jk| 1.总体的相关矩阵为若记则有2.均值向量与协方差阵的性质设设A,B为常量矩阵,则E(AX) = AE(X) = ACov(AX) = ACov(X)AT = AATCov(AX, BY) = ACov(X, Y)BT 这里,Cov(X, Y) = E(X-E(X)(Y E(Y),称为X与 Y的协方差阵. 当n充分大时,有3.多维正态分布若多维总体具有概率密度则称总体X服从p维正态分布,记为X 多维正态分布的性质 若 Y =AX + b,其中Alp, bl1为常量矩阵,则设 X Y

7、X(1) ,X(2) 将X, 和作如下划分这里,p1 + p2 = p,且 ,则 正态总体X的两个分量Xi和Xj相互独立的充 要条件是ij = 0 (i j).又若则X(1)和X(2)相互独立的充要条件是1、概念当有多个变量存在时,为了研究任 何两个变量之间的关系,而使与这两个 变量有联系的其它变量都保持不变。即 控制了其它一个或多个变量的影响下, 计算两个变量的相关性。2、偏相关系数偏相关系数是用来衡量任何两个变量 之间的关系的大小。Analyze-Correlation-Partial把分析变量选入 Variable 框把控制变量选入 Controlling for 框点击 Options

8、点击 Statistics:选择Mean and standard deviation Zero-order correlation Continue OK3.SPSS操作:偏相关分析第1章例3例3:已知某地29名13岁男童身高X1(cm)、体重X2(kg)和肺活量Y(ml), 请计算身高与肺活量,体重与肺活量的相关关系。身高与肺活量的简单相关系数1、身高与肺活量的简单相关系数2、体重与肺活量的简单相关系数3、身高与体重的简单相关系数Variable Mean Standard Dev CasesX1( 身高 ) 152.5759 8.3622 29Y (肺活量) 2206.8966 448.

9、5541 29X2 ( 体重 ) 37.3069 5.6704 29例子偏相关分析结 果:体重为控制变量,身高与肺活量的偏相关 系数P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for. X2 (体重)Y(肺活量) X1(身高) Y (肺活量) 1.0000 .2361( 0) ( 26)P= . P= .226X1 (身高) .2361 1.0000( 26) ( 0)P= .226 P= .P A R T I A L C O R R E L A T I O N C O E F F I C I

10、E N T S Controlling for. X1(身高)Y(肺活量) X2(体重)Y 1.0000 .4152( 0) ( 26)P= . P= .028X2 .4152 1.0000( 26) ( 0)P= .028 P= .身高作为控制变量,肺活量与体重的偏 相关系数相关分析实际应用注意事项 1.实际意义进行相关回归分析要有实际意义,不可把 毫无关系的两个事物或现象用来作相关回 归分析。2.相关关系相关关系不一定是因果关系,也可能是伴 随关系,并不能证明事物间有内在联系。3.利用散点图对于性质不明确的两组数据,可先做散点图 ,在图上看它们有无关系、关系的密切程度 、是正相关还是负相关

11、,然后再进行相关分 析。4.变量范围相关分析和回归方程仅适用于样本的原始数 据范围之内,出了这个范围,我们不能得出 两变量的相关关系和原来的回归关系。第1章总结当手中有了一个数据,首先要对它有个直观的概 念。要心中有数。如果数据来自一个总体,首先要看 它的大概的分布形状。利用直方图,盒子图(又称箱 线图),茎叶图等,看该分布是否呈现出对称性,是 否有很长的尾部,是否有远离数据主体的点等等。如 果研究对象是多样本模型,数据来自不同总体,除了 上面所说的对一个样本所作的分析和处理之外,还要 看这些样本的形状是否类似;要作各种二维(诸如散 点图,直方图和盒子图)或三维图来发现这些样本之 间的联系或相关性。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号