山东大学概率论与数理统计课件32协方差和相关系数

上传人:东*** 文档编号:280912770 上传时间:2022-04-22 格式:PPT 页数:35 大小:1.02MB
返回 下载 相关 举报
山东大学概率论与数理统计课件32协方差和相关系数_第1页
第1页 / 共35页
山东大学概率论与数理统计课件32协方差和相关系数_第2页
第2页 / 共35页
山东大学概率论与数理统计课件32协方差和相关系数_第3页
第3页 / 共35页
山东大学概率论与数理统计课件32协方差和相关系数_第4页
第4页 / 共35页
山东大学概率论与数理统计课件32协方差和相关系数_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《山东大学概率论与数理统计课件32协方差和相关系数》由会员分享,可在线阅读,更多相关《山东大学概率论与数理统计课件32协方差和相关系数(35页珍藏版)》请在金锄头文库上搜索。

1、 前面我们介绍了随机变量的数学期望前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现间关系的数字特征中,最重要的,就是现在要讨论的在要讨论的协方差和相关系数协方差和相关系数在在讨论这个问题之前,我们先看一个例子。讨论这个问题之前,我们先看一个例子。在研究子女与父母的相象程度时,有一项是在研究子女与父母的相象程度时,有一项是关于父亲的身高和其成年儿子身高的关系关于父亲的身高和其成年儿子身高的关系.这里有两个变量,一个是父亲的身高,一个这里有两个变量,一个是父亲的身高,一个是成年儿子身高是成年儿子身高. 为了

2、研究二者关系为了研究二者关系. 英国统英国统计学家皮尔逊收集了计学家皮尔逊收集了1078个父亲及其成年儿个父亲及其成年儿子身高的数据子身高的数据, 画出了一张散点图画出了一张散点图.那么要问:父亲及其成年儿子身高是一那么要问:父亲及其成年儿子身高是一种什么关系呢?种什么关系呢?类似的问题有类似的问题有:吸烟和患肺癌有什么关系?吸烟和患肺癌有什么关系?受教育程度和失业有什么关系?受教育程度和失业有什么关系?高考入学分数和大学学习成绩有什么关系?高考入学分数和大学学习成绩有什么关系?为了研究诸如此类的两变量的相互关系问为了研究诸如此类的两变量的相互关系问题,我们需要从理论上对两变量的相互关题,我们

3、需要从理论上对两变量的相互关系加以研究系加以研究.这一讲就来讨论这个问题这一讲就来讨论这个问题. 任意两个随机变量任意两个随机变量X和和Y的协方差的协方差,记为记为Cov(X,Y), 定义为定义为 Cov(X1+X2,Y)= Cov(X1,Y) + Cov(X2,Y) Cov(X,Y)= Cov(Y,X)一、协方差一、协方差2.简单性质简单性质 Cov(aX,bY) = ab Cov(X,Y) a,b是常数是常数Cov(X,Y)=E X-E(X)Y-E(Y) 1.定义定义 Cov(X,Y)=E(XY) -E(X)E(Y) 可见,若可见,若X与与Y独立,独立, Cov(X,Y)= 0 .3. 计

4、算协方差的一个简单公式计算协方差的一个简单公式由协方差的定义及期望的性质,可得由协方差的定义及期望的性质,可得Cov(X,Y)=E X-E(X)Y-E(Y) =E(XY)-E(X)E(Y)-E(Y)E(X)+E(X)E(Y) =E(XY)-E(X)E(Y)即即若若X1,X2, ,Xn两两独立两两独立,,上式化为,上式化为D(X+Y)= D(X)+D(Y)+ 2Cov(X,Y)4. 随机变量随机变量和的方差与协方差的关系和的方差与协方差的关系常用上式计算相依随机变量和的方差常用上式计算相依随机变量和的方差. 协方差的大小在一定程度上反映了协方差的大小在一定程度上反映了X和和Y相互间的关系,但它还

5、受相互间的关系,但它还受X与与Y本身度量单位本身度量单位的影响的影响. 例如:例如:Cov(kX, kY)=k2Cov(X,Y)为了克服这一缺点,对协方差进行标准化为了克服这一缺点,对协方差进行标准化:这就引入了这就引入了相关系数相关系数 .二二、相关系数、相关系数为随机变量为随机变量X和和Y的相关系数的相关系数 .定义定义: 设设D(X)0, D(Y)0, 称称在不致引起混淆时,记在不致引起混淆时,记 为为 .相关系数的性质:相关系数的性质:证证: 由方差的性质和协方差的定义知由方差的性质和协方差的定义知,对任意实数对任意实数b,有有0D(Y-bX)= b2D(X)+D(Y)-2b Cov(

6、X,Y )令令,则上式为,则上式为 D(Y- bX)= 由于方差由于方差D(Y)是正的是正的,故必有故必有1- 0, 所以所以 | |1.2. X和和Y独立时,独立时, =0,但其逆不真但其逆不真.由于当由于当X和和Y独立时,独立时,Cov(X,Y)= 0.故故= 0但由但由并不一定能推出并不一定能推出X和和Y 独立独立.请看下例请看下例.例例1 设设X服从服从(-1/2, 1/2)内的均匀分布内的均匀分布,而而Y=cos X,(请课下自行验证)(请课下自行验证)因而因而 =0,即即X和和Y不相关不相关 .但但Y与与X有严格的函数关系,有严格的函数关系,即即X和和Y不独立不独立 .不难求得,不

7、难求得,Cov(X,Y)=0,存在常数存在常数a,b(b0),),使使PY=a+bX=1,即即X和和Y以概率以概率1线性相关线性相关.考虑以考虑以X的线性函数的线性函数a+bX来近似表示来近似表示Y,以均方误差以均方误差e =EY-(a+bX)2来衡量以来衡量以a+bX近近似表示似表示Y的好坏程度的好坏程度,e值越小表示值越小表示 a+bX与与Y的近似程度越好的近似程度越好. 用微积分中求极值的方法,求出使用微积分中求极值的方法,求出使e 达达到最小时的到最小时的a,b .相关系数刻划了相关系数刻划了X和和Y间间“线性相关线性相关”的程度的程度. =E(Y2)+b2E(X2)+a2- 2bE(

8、XY)+2abE(X) - 2aE(Y)e =EY-(a+bX)2 解得解得这样求出的最佳逼近为这样求出的最佳逼近为L(X)=a0+b0X 这样求出的最佳逼近为这样求出的最佳逼近为L(X)=a0+b0X这一逼近的剩余是这一逼近的剩余是若若 =0, Y与与X无线性关系无线性关系;Y与与X有严格线性关系有严格线性关系;若若可见可见,若若0| |0时,时,L(X)中中X的系数大于的系数大于0,即即Y 的最佳逼近的最佳逼近 a+ bX 随随X增加而增加增加而增加, 这这就是正向相关;反之就是正向相关;反之, 0表示负向相表示负向相关,此时关,此时Y的最佳逼近的最佳逼近a+ bX随随X增加而增加而减小减

9、小.E(Y-L(X)2= D(Y)(1- )若若(X,Y)具有二维正态。具有二维正态。 是是Y与与X的的相相关系数关系数. 以下画出以下画出 取几个不同值时取几个不同值时(X,Y)的密度函数图的密度函数图. 相关系数度量的是两变量间的相互相关系数度量的是两变量间的相互关系(关系(“线性相关线性相关”的程度)的程度).但相互关但相互关系并不等于因果关系系并不等于因果关系. 若某地区若某地区18-74岁男子身高与体重岁男子身高与体重的相关系数约为的相关系数约为0.40. 下面的结论正确下面的结论正确还是错误,并说明理由还是错误,并说明理由.1、较高的男子趋于较重;、较高的男子趋于较重;2、较重的男

10、子趋于较高;、较重的男子趋于较高;3、如果多吃一些从而增加、如果多吃一些从而增加10斤体重,斤体重,你的身材会长高你的身材会长高.错误错误相互关系并不等于因果关系相互关系并不等于因果关系.但对下述情形,独立与不相关等价但对下述情形,独立与不相关等价若若(X,Y)服从二维正态分布,则服从二维正态分布,则X与与Y独立独立X与与Y不相关不相关前面,我们已经看到:前面,我们已经看到:若若X与与Y独立,则独立,则X与与Y不相关,不相关,但由但由X与与Y不相关,不一定能推出不相关,不一定能推出X与与Y独立独立.矩、协方差矩阵矩、协方差矩阵在数学期望一讲中,我们已经介绍了在数学期望一讲中,我们已经介绍了矩和

11、中心矩的概念矩和中心矩的概念.这里再给出混合矩、混合中心矩的概念这里再给出混合矩、混合中心矩的概念.协方差协方差Cov(X,Y)是是X和和Y的的二阶混合中心矩二阶混合中心矩.称它为称它为X和和Y的的k+L阶混合(原点)矩阶混合(原点)矩.若若存在,存在,称它为称它为X和和Y的的k+L阶混合中心矩阶混合中心矩. 设设X和和Y是随机变量,若是随机变量,若 k,L=1,2,存在,存在,可见,可见,协方差矩阵的定义协方差矩阵的定义 将二维随机变量(将二维随机变量(X1,X2)的四个二阶中心矩的四个二阶中心矩排成矩阵的形式排成矩阵的形式:称此矩阵为(称此矩阵为(X1,X2)的协方差矩阵的协方差矩阵.这是

12、一个这是一个对称矩阵对称矩阵 类似定义类似定义n维随机变量维随机变量(X1,X2, ,Xn) 的协方差矩阵的协方差矩阵.下面给出下面给出n元正态分布的概率密度的定义元正态分布的概率密度的定义.为为(X1,X2, ,Xn) 的的协方差矩阵协方差矩阵称矩阵称矩阵都存在都存在,i, j=1,2,n若若f (x1,x2, ,xn)则称则称X服从服从n元正态分布元正态分布.其中其中C是是(X1,X2, ,Xn) 的协方差矩阵的协方差矩阵.|C|是它的行列式,是它的行列式, 表示表示C的逆矩阵,的逆矩阵,X和和 是是n维列向量,维列向量, 表示表示X的转置的转置. 设设 =(X1,X2, ,Xn)是一个是

13、一个n维随机向量维随机向量,若它的概率密度为若它的概率密度为n元元正态分布的几条重要性质正态分布的几条重要性质1. X=(X1,X2, ,Xn)服从服从n元正态分布元正态分布a1X1+ a2 X2+ + an Xn均服从正态分布均服从正态分布.对一切不全为对一切不全为0的实数的实数a1,a2,an,n元元正态分布的几条重要性质正态分布的几条重要性质2. 若若 X=(X1,X2, ,Xn)服从服从n元正态分布,元正态分布, Y1,Y2, ,Yk是是Xj(j=1,2,n)的线性函数,的线性函数,则则(Y1,Y2, ,Yk)也服从多元正态分布也服从多元正态分布.这一性质称为正态变量的线性变换不变性这

14、一性质称为正态变量的线性变换不变性.n元元正态分布的几条重要性质正态分布的几条重要性质 3. 设设(X1,X2, ,Xn)服从服从n元正态分布,则元正态分布,则“X1,X2, ,Xn相互独立相互独立”等价于等价于“X1,X2, ,Xn两两不相关两两不相关”例例2 设随机变量设随机变量X和和Y相互独立且相互独立且XN(1,2),YN(0,1). 试求试求Z=2X-Y+3的概率密度的概率密度. 故故X和和Y的联合分布为正态分布,的联合分布为正态分布,X和和Y的的任意线性组合是正态分布任意线性组合是正态分布.解解: XN(1,2),YN(0,1),且,且X与与Y独立独立,D(Z)=4D(X)+D(Y

15、)=8+1=9E(Z)=2E(X)-E(Y)+3=2+3=5 即即 ZN(E(Z), D(Z)ZN(5, 32)故故Z的概率密度是的概率密度是ZN(5, 32)这一讲我们介绍了协方差和相关系数这一讲我们介绍了协方差和相关系数相关系数是刻划两个变量间线性相关程度相关系数是刻划两个变量间线性相关程度的一个重要的数字特征的一个重要的数字特征.它取值在它取值在-1到到1之间之间. 如果两个变量之间存在强相关,则已如果两个变量之间存在强相关,则已知一个变量的值对预测另一个变量的值将知一个变量的值对预测另一个变量的值将很有帮助很有帮助. 如果两个变量之间只有很弱的相关,如果两个变量之间只有很弱的相关,则关于一个变量的信息对猜测另一个变量则关于一个变量的信息对猜测另一个变量的值没有多大帮助的值没有多大帮助.注意独立与不相关并不是等价的注意独立与不相关并不是等价的.当当(X,Y)服从二维正态分布时,有服从二维正态分布时,有X与与Y独立独立X与与Y不相关不相关

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 理学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号