第三讲概率及概率分布课件

资源描述

《第三讲概率及概率分布课件》由会员分享，可在线阅读，更多相关《第三讲概率及概率分布课件（71页珍藏版）》请在金锄头文库上搜索。

1、第三讲概率及概率分布,沈建荣 ,一、概率定义与计算（略）,二、随机变量的统计特性,连续型随机变量的描述及特征,设f(x)为连续型随机变量X的概率密度函数，则累积分布函数为连续型随机变量的期望（均值）、总体中位数xm 连续型随机变量的方差,例1a （连续型随机变量）,某厂加工一种圆孔套件，轴与孔径的间隙为随机变量X(cm），其概率分布密度函数为：,1、若间隙大于0.8则不合格，问该厂加工的废品率是多少？ 2、优等品（间隙小于0.4）的比例是多少？ 3、求间隙的均值、总体中位数和方差。,计算1、废品率：,计算2、优等品率：,计算3、均值、总体中位数和方差：,例1b （离散型随机变量）,某保险公

2、司设计一款一日游健康保险产品。根据市场调查，产品设计为：轻伤赔付500元（平均发生比例1%），重伤赔付10000元（平均发生比例0.1%），死亡赔付200000元（平均发生比例0.01%）。问按照盈亏平衡原则的收费最少为多少？,分析,只需计算出每一份产品的理赔值即可。因为该变量为不确定的随机变量，所以应该计算变量的期望值。（产品价格当然还应加上产品的销售、管理等等成本以及合理的利润点，关于这些方面的问题，本例不作探讨）,计算,记理赔值为随机变量X，则X的概率分配为：,续,产品价格不能低于理赔额，保单价格应为35元加上管理和销售成本，再加上合理的利润。,随机变量的线性函数,随机变量的线性函数

3、期望（均值）方差,例2,某地居民家庭平均年收入为2.5万元，方差为1。人们习惯将收入的25%扣除500元的保险后作为储蓄，问该地家庭年均储蓄为多少？方差多少？计算：,独立随机变量线性组合的均值与方差,如果X1,X2,Xp为相互独立的随机变量，则线性组合期望方差,例3,在例1中，设套件直径的均值为30.35cm，标准差为0.03cm，轴直径30.25cm。标准差为0.02cm。求间隙的均值，假设轴和套的选取是相互独立的，求间隙的标准差。,计算,设套孔直径为X1，轴直径X2，则间隙：,联合连续型随机变量,如果随机变量X和Y的概率可以通过对一个二元函数的积分得到，则称X和Y是联合连续，这个二

4、元函数称为X和Y的联合概率密度函数（joint probability density function）,边际概率密度函数(marginal probability density function),联合概率密度函数关于其中一个变量的全部积分即得到另一个随机变量的边际概率密度函数。,条件分布概率密度函数(conditional probability density function),设X和Y为联合连续型随机变量，联合概率密度为f(x,y)，在给定X=x的条件下，Y的条件概率密度函数为：,在给定X=x的条件下，Y的条件期望为：,独立性,当下列条件成立时，称X和Y是相互独立的,即随机变量的

5、独立与事件的独立很相似，Y的条件分布不依赖于X,显然，当X和Y是相互独立的，则有,协方差（covariance）,当两个随机变量不独立时，协方差可以衡量二者之间的关系方向与强度。随机变量X和Y的总体协方差,例5a,某物体在由坐标系X轴、直线x=1以及直线y=x围成的区域A（如图示）内随机出现，(X,Y)表示物体在某一时间内出现的位置，且X和Y的联合概率密度为：,求X和Y的协方差。,计算,（X的边际概率密度）,（Y的边际概率密度）,（X的期望）,（Y的期望）,（XY的期望）,例5b,已知（X,Y）服从二维正态分布N（a,b,12,22,),联合概率密度函数为：,试计算y的概率密度函数。,计算,

6、先计算X的边际概率密度函数：,注意到：,续,积分得到：,续,作代数变换：,代入前式得：,即X的边际概率分布依然是正态分布N（a, 12), 。,续,进一步计算出Y的条件密度函数为：,Y的期望条件为：,相关系数,协方差包含着两个随机变量的单位，当多个随机变量两两比较时，就无法确定相互间关系的强弱，相关系数可以解决这一问题。总体相关系数（population correlation）定义为：,可以证明，对于任意两个随机变量均有：,随机变量线性组合的的均值与方差,特别地有：,例6：鸡蛋应该放在不同篮子里吗？,有两个项目，每个需投资100万元，预期投资回报为随机变量。假设投资回报期望都是10万元，已

7、知不确定性（标准差）都是4万元，且两个项目之间存在相关关系，相关系数假设为0.5。现在你有200万元投资款，你应该将全部资金投于一个项目还是分投两个项目？,分析,投资（尤其是短期）决策主要考虑两个因素：预期投资回报和风险。预期投资回报可以用随机变量的期望来衡量；分析则可以用随机变量标准差来衡量。若投资回报相同，则选择风险较小的方案；若投资回报不同相同，则根据决策者的风险偏好来选择方案。（另：人类是风险喜好者还是规避者？如果你是房产投资人，试考虑买和卖的决策过程。）,计算,设随机变量X和Y分别表示两个项目的投资回报，则可以表示：预期回报和分析为：,方案1：分别投资于两个项目，则预期回报和

8、风险分别为：,方案2：全部投资于1个项目，则预期回报和风险分别为：,显然，方案1优于方案2。,问题并没有结束，试考虑：投资中的对冲问题；跨行业分散投资问题。,独立简单随机样本,如果X1,X2,Xn为抽取自同一总体的独立随机样本，样本均值则均值的期望为：均值的方差：,例4,某机构希望调查一个城市中居民家庭对某一商品的月均消费水平（平均）。根据其它类似城市的调查已知该消费值的标准差约为50元。现要求本次调查的偏差（以标准差计）不超过2元，问至少需要多大的样本容量？,计算,设随机变量X代表月均消费， X1,X2,Xn代表独立随机抽出的样本，则显然有样本均值的期望等于总体均值：,而样本均值的标

9、准差为：,因此，需要抽取至少625户。,思考：如果只抽取一户，误差为多少？抽取2户呢？为什么要抽取那么多的样本？,大数定理,设X1,X2,Xn为iid（独立同分布）随机变量，公共期望为m，方差s2存在且有限。则对任意给定的e0有：,该定理证明了：当 n 很大时，Xi的平均值是依概率收敛于期望的。,Lindberg中心极限定理,设X1,X2,Xn为iid（独立同分布）随机变量，公共期望为m，方差s2存在且有限。则对任意给定的实数 x有：,换言之：当 n 很大时，Xi的平均值：,F(x)是N(0,1)标准正态分布的累积分布函数。,课外作业,用EXCEL从以下3个分布中，分别各以样本数n=5和

10、n=30进行随机抽样，计算样本均值，重复500次，绘出500个均值的频数直方图。将各个分布的图形与N(2.5,0.5)和N(2.5,0.0833)以及N(2.5,0.37)、 N(2.5,0.0617)图形对比。 1、泊松分布：Poisson(2.5) 2、离散双峰分布，概率分布如下：,三、常用的概率分布,伯努利分布(Bernoulli distribution）,伯努利实验：一个实验只有两种可能的结果：“成功”和“失败”，概率分别为p和1-p。定义随机变量X：实验成功则X=1，否则为0 称X是服从参数为p的伯努利分布，记为：,易得：,二项分布(binomial distribution）

11、,假设进行了n次独立的伯努利实验，记X为n次试验中成功的总次数。称X是服从参数为n和p的二项分布，记为：根据概率计算可得X的概率分布函数：,均值和方差为：,泊松分布(Poisson distribution）,当n足够大且p非常小时，可以用形式上更简洁的泊松分布来近似二项分布，记为：其概率分布函数为：,均值和方差为：,正态分布 ( normal distribution ),理论概率密度函数为：,均值和方差为：,记为：,对于相互独立且服从正态分布的随机变量的线性组合有：,标准正态分布( standard normal distribution ),正态分布的期望值为0，标准差为1时称为标

12、准正态分布，记为ZN(0,1) 随机变量X经过标准化变换后：,问题7：请判断我国居民家庭财产是否符合正态分布？,资料： 1、国家统计局城市调查总队于2002年5月7月在河北、天津、山东、江苏、广东、四川、甘肃、辽宁等8个省（直辖市）采取多相抽样的方式抽取了大、中、小城市3997户居民家庭作为有效样本户，由专职调查员进行了入户问卷调查。调查结果显示，截止到2002年6月底，城市居民家庭财产户均总值为22.83万元。近一半城市居民的家庭财产集中在15万30万元之间。有48.5的被调查户家庭财产在15万30万元之间，有34.8的被调查户家庭财产在15万元以下，有16.7的被调查户家庭财产在30万元

13、以上。 2、福布斯 “2011中国富豪排行榜”，中国个人或家族资产超过10亿美元（约合64亿元人民币）的亿万富豪人数，达到了前所未有的146人； 3、据2011年胡润中国富豪排行榜，有超过1000人的财富超过20亿元人民币； 4、据群邑智库2011胡润财富报告，中国千万富豪达96万人，其中包括6万个亿万富豪。,续,2012年6月1日，美国波士顿咨询公司发布全球财富报告。报告称中国648个超级富豪家庭财产每个逾1亿美元，排名全球第5。该报告主要比较的是百万富豪家庭数量。2011年，中国百万富豪家庭数量达到143.2万户，在2010年，中国拥有129.3万百万富豪家庭，而2009年这一数据为85万

14、，2005年为41万。其中，美国以513万户位居榜首位置，不过，其数量减少了12.9万户。日本则位居第二位，这一数字达到158万户。中国和英国紧随其后位居第三和第四位。,样本数据是否属于正态总体的判断(1)：图示,P-P图以样本的累计频率作为横坐标，以按照正态分布计算的相应累计概率作为纵坐标，以样本值作散点图。 Q-Q图以样本的分位数作为横坐标，以按照正态分布计算的相应分位点作为纵坐标，以样本值作散点图。如果数据服从正态分布，则以上两种图中，样本点应围绕第一象限的对角线分布。此外，直方图、箱线图、茎叶图等也可作直观判断。,例:用图示方法检查样本Xi的正态性,判断（2）：参数检验,偏度

15、系数（Skewness）和峰度系数（Kurtosis）检验法：偏度系数 S和峰度系数K分别定义为： S0时，分布呈正偏（右偏）态，S0时为尖峰分布，K0时为扁平分布；当S=0，K=0时分布呈正态分布。,续,方法1：偏态与峰态的检验检验原假设X服从正态分布，统计量S和K有近似分布：,对于给定的，拒绝域为：,续,方法2：Jarque-Bera检验检验原假设X服从正态分布，统计量JB有近似分布：,对于给定的，拒接域为：,判断（3）：非参数检验,Shapiro-Wilk ( W检验 ) 原假设为xi来自于正态分布总体，检验统计量：,其中：x（i）为样本的秩统计量(或顺序统计量，order sta

16、tistic);,为来自iid样本的秩统计量的期望,V为秩统计量的协方差阵。,续,当原假设为真时，W的值应接近于1，若值过小，则怀疑原假设，从而拒绝域为：,在给定的水平下：,还有其它非参数正态性检验方法，如基于经验分布函数（ECDF）的检验，适合于大样本的情况，包括Kolmogorov-Smirnov检验，拟合优度检验等方法。,对数正态分布(lognormal distribution),如果XN(,2)，则随机变量 Y=eX 服从参数为和2的对数正态分布；如果Y服从参数为和2的对数正态分布，则 X=lnY服从正态分布N(,2) 参数为和的对数正态随机变量的概率密度函数为：,期望与方差：,问题8,同问题7，判断居民家庭财富是否符合对数正态分布？,四、几个重要的随机变量的函数的概率分布,卡方分布,如果随机变量X1,X2,Xn相互独立，且服从标准正态分布N（0,1），则服从自由度为n的卡方分布。记为：若X1,X2独立，且,思考,如果随机变量X1,X2,Xn相互独立，且服从标准正态分布那么哪一个统计量服从卡方分布？,典型应用1,总体方

展开阅读全文