1,第四章,随机变量的数字特征,2,前面讨论了随机变量的概率分布,它完整地描述了随机变量的概率性质,而数字特征则是由概率分布所决定的常数,它刻划了随机变量的某一方面的性质在许多实际问题中,分布往往不易求得或不需求得,而只需了解某些数字特征,而数字特征往往容易通过数理统计的方法得到这一节先介绍随机变量的数学期望.,在这些数字特征中,最常用的是,期望和方差,3,§1 数学期望 (Mathematical Expectation),4,有甲、乙两射手,他们的射击技术如下表:,一、离散型随机变量的数学期望,例1,甲:,乙:,问哪一个射手水平较高?,解,假定各射N枪,则平均每枪所得环数约为,甲:,5,甲:,乙:,问哪一个射手水平较高?,解,假定各射N枪,则平均每枪所得环数约为,甲:,乙:,可见甲的水平高些6,定义,设离散型随机变量X的概率分布为,若级数,绝对收敛,,则称之为X的数学期望,记为E(X),即,,7,例2,面额为1元的彩票共发行1万张,其中可得奖金1000元、20元、5元的彩票分别有2张、50张和500张若某人购买1张彩票,则他获奖金额X的数学期望E(X)为多少?,解,1000,20,5,0.0002,0,0.005,0.05,0.9448,则,8,首先要对未来市场作出适当估计。
假定企业领导人认为未来市场萧条较之市场繁荣是2对1之比,即市场萧条和繁荣的概率分别为2/3和1/3,因此,如果立即扩展,则利润的期望值是,假定有一个商业企业面临着是否扩大经营问题,根据现有资料估计,如果未来的市场繁荣而现在就进行扩展经营,则一年内可以获利328(万元);如果未来市场萧条,则将损失80(万元)如果这个企业等待下一年再扩展,在市场繁荣的情况下,将获利160(万元),而在市场萧条的情况下,则仅能获利16(万元)现在的问题是,这个企业的领导人将怎样作出决策?,数学期望在经济管理中经常用到,特别是在决策问题中例3,解,9,市场萧条和繁荣的概率分别为2/3和1/3, 如果立即扩展,则利润的期望值是,如果他决定下一年再扩展,则利润的期望值为,按此计算结果,自然应当以采取推迟扩展的决策为有利如果领导人对未来市场的估计不是2:1,而是3:2,那么,他立即扩展所期望的利润为,10,如果领导人对未来市场的估计不是2:1,而是3:2,那么,他立即扩展所期望的利润为,而推迟扩展所期望的利润为,按此计算结果,则立即扩展较为有利11,(一种验血新技术) 在一个人数很多的单位中普查某种疾病,N个人去验血,有两种方法: (1) 每个人的血分别化验,共需N次;(2) 把k个人的血样混在一起化验,如果结果是阴性,那么一次就够了;如果呈阳性,那么对这k个人的血样再逐次化验,共需k+1次. 假定对所有人来说, 呈阳性的概率为p,且相互独立,下面说明当p较小时,方法(2)能减少化验的次数.,例4,解,用方法(2)验血时,每个人需化验的次数X的概率分布为,12,用方法(2)验血时,每个人需化验的次数X的概率分布为,因此,,N个人需化验的次数的数学期望为,13,例 设某种疾病的发病率为1%,在1000个人中普查这种疾病,为此要化验每个人的血。
方法是,每100个人一组,把从100个人抽来的血混在一起化验,如果混合血样呈阴性,则通过,如果混合血样呈阳性,则再分别化验该组每个人的血样求平均化验次数,解:设Xj为第j组的化验次数,,,,Xj,Pj,1 101,X为1000人的化验次数,则,14,15,几种常见离散型分布的数学期望,1. 0-1分布,2. 二项分布,16,2. 二项分布,,,17,3. 泊松分布,,由无穷级数知识知,,18,4. 几何分布,由无穷级数知识知,,逐项求导,,所以,,19,二、连续型随机变量的数学期望,定义,设连续型随机变量X的概率密度为f(x),如果积分,绝对收敛,,则称之为X的数学期望,记为E(X),即,,20,例5,解,设随机变量X的概率密度函数为,求X的数学期望21,几种常见连续分布的数学期望,1. 均匀分布,,22,2. 指数分布,,23,3. 正态分布,,,24,三、随机变量的函数的数学期望,(1)若X是离散型随机变量,且X的概率分布为,(2)若X是连续型随机变量,且其概率密度为 f(x),,则,则,25,上述结论可推广到两个随机变量的函数的情况。
1) 若(X,Y)是离散型随机变量,且其联合分布律为,则,(2) 若(X,Y)是连续型随机变量,联合概率密度为f(x,y),则,26,例6,解,设随机变量X的概率分布如下:,27,例7,解,设随机变量X的概率密度为拉普拉斯分布,28,,,例8,解,设随机变量(X,Y)的联合概率密度为,,29,,,例8,解,设随机变量(X,Y)的联合概率密度为,,30,四、数学期望的性质,性质1 E(C)=C,其中C是常数性质4 设X、Y独立,则 E(XY)=E(X)E(Y);,性质2 若k是常数,则 E(kX)=kE(X);,性质3 E(X1+X2) = E(X1)+E(X2);,(诸Xi 独立时),注意:E(XY)=E(X)E(Y)不一定能推出X,Y 独立,推广:,31,利用期望的性质重新求二项分布的数学期望.,设 X ~ B ( n, p ),,X表示n重贝努里试验中的“成功” 次数.,现在我们来求X的数学期望 .,例9,解,设,而 X= X1+X2+…+Xn,i=1,2,…,n,其分布律为,所以,32,一民航送客车载有20位旅客自机场开出,旅客有10个车站可以下车.如到达一个车站没有旅客下车就不停车. 以X表示停车的次数, 求E(X) (设每位旅客在各个车站下车是等可能的,并设各旅客是否下车相互独立).,引入随机变量,则有,例10,解,由题意, 有,33,则有,由题意,有,所以,由数学期望的性质,得,,34,§2 方差 (Variance),随机变量X的数学期望,描述了随机变量X取值的集中趋势或平均水平,但是仅仅知道X的数学期望有时还不能完全刻划随机变量X的统计特征。
比如,某厂生产一批元件,平均使用寿命E(X)=1000小时,仅由此我们还很难了解这批元件质量的好坏,因为有可能有一半的元件质量很高,寿命在1500小时以上,而另一半却质量很差,寿命不足500小时,从而反映出质量不稳定可见应进一步考察元件寿命X对期望E(X)的偏离程度下面介绍的方差就是用来描述随机变量的可能取值与其期望之间的差异程度的数量特征35,一、方差的定义,定义,即,36,,计算公式:,,37,,1. 若X是离散型随机变量,其概率分布为,则,计算公式:,2. 若X为连续型随机变量,其概率密度为 f(x),,则,38,设X表示机床A一天生产的产品废品数,Y 表示机床B一天生产的产品废品数,它们的概率分布如下:,例1,解,问:两机床哪台质量好?设两台机床的日产量相等均值相等, 据此不能判断优劣,再求方差.,39,均值相等, 据此不能判断优劣,再求方差.,,由于D(X)
性质2 若k是常数,则,性质3,证,其中C是常数证,50,性质4,设X和Y是两个相互独立的随机变量,则,证,而,51,性质4,设X和Y是两个相互独立的随机变量,则,证,,当X和Y相互独立时,有E(XY)=E(X)E(Y),,所以,推广:,若X1,X2,…,Xn相互独立,则,52,注意:以下两个式子是等价的,,的充分必要条件为,存在常数C,使,事实上,,若X1,X2,…,Xn相互独立,则,,例如,当X和Y相互独立时,有,性质5,53,利用方差的性质重新求二项分布的方差.,设 X ~ B ( n, p ),,X表示n重贝努里试验中的“成功” 次数.,例2,解,设,而 X= X1+X2+…+Xn ,,i=1,2,…,n,其分布律为,所以,且 X1,X2,…,Xn相互独立,,54,三、切比雪夫不等式,随机变量的方差是刻画它围绕其期望值的离散程度的,因此我们希望用方差来估计随机变量与其期望值之间的偏差大于某一给定正数的概率的上界定理,成立.,55,定理,成立.,证,设X是连续型随机变量,其概率密度为f(x),则,56,上式可改写为,,切比雪夫不等式具体地估算了随机变量X取值时,以数学期望E(X)为中心的分散程度。
不难看出,方差D(X)越小,则随机变量X的取值越集中在数学期望E(X)的附近,由此可以进一步体会到方差的概率意义,它刻划了随机变量的分散程度如取,57,已知正常男性成人血液中,每一毫升白细胞数平均是7300,均方差是700 . 利用切比雪夫不等式估计每毫升白细胞数在5200~9400之间的概率 .,设每毫升白细胞数为X ,,依题意,E(X)=7300, D(X)=7002 ,,例3,解,由切比雪夫不等式,,58,根据过去统计资料,某产品的次品率为p=0.05,试用切比雪夫不等式估计1000件产品中,次品数在40~60之间的概率.,例4,解,设X表示1000件产品中的次品数,则,由切比雪夫不等式,,59,该数值是非常保守的估计,事实上,由中心极限定理可知,概率约为,,注:,60,§3 协方差及相关系数,对随机向量来说,除了研究每个分量的数学期望和方差以外,还希望知道分量之间的相关程度,因此引进协方差和相关系数这两个概念定义,计算公式:,协方差的性质:,1. 对称性:,61,协方差的性质:,1. 对称性:,,2. 线性性:,3. 若X和Y相互独立,则,因为X和Y相互独立,4.,前面已证,62,,4.,前面已证,即,类似地有,推广:,因此,若X1,X2, …,Xn两两独立,,则有,63,协方差的大小在一定程度上反映了X和Y相互间的关系,但它还受X与Y本身度量单位的影响. 例如:,Cov(kX, kY)=k2Cov(X,Y),为了消除量纲的影响,下面提出随机变量标准化的概念 .,可以验证,,标准化随机变量消除了量纲的影响。
64,,定义,设 D(X)>0, D(Y)>0,,计算公式:,65,设(X,Y )的联合分布律为,例1,解,,先求出边缘分布,,,66,,67,设(X,Y )的联合密度函数为,例2,解,先求出边缘密度,,,,,,,68,,类似地,,69,,70,注:实际上,本题不必求边缘密度,可以直接用以下公式计算E(X)、E(Y )等.,,实际上,第一种方法限定了求积分的次序,有时不方便.,71,相关系数的性质:,性质1,证,性质2,证,72,性质2,证,,,73,相关系数是随机变量之间线性关系强弱的一个度量(参见如下的示意图).,| |的值越接近于1, Y与X的线性相关程度越高;,| |的值越接近于0, Y与X的线性相关程度越弱.,74,定义,下列事实彼此等价:,若X与Y 相互独立,则X与Y 不相关定理,注意:,(1) 逆命题不成立,即X与Y 不相关时,不一定独立.,(2) 在正态分布的场合,独立性与不相关性是一致的75,二维正态分布,前面已证: X,Y 相互独立,可以计算得,于是,对二维正态随机变量(X,Y )来说, X和Y 不相关与X和Y 相互独立是等价的.,76,例3,设( X,Y )的分布律为,,,所以,这表示X,Y 不存性关系.,但,,知X,Y 不独立.,事实上, X,Y 具有非线性关系:,77,例4,解,78,例4,解,,79,。