02-2 理论分布(正式)

上传人:ldj****22 文档编号:51937916 上传时间:2018-08-17 格式:PPT 页数:65 大小:1.10MB
返回 下载 相关 举报
02-2 理论分布(正式)_第1页
第1页 / 共65页
02-2 理论分布(正式)_第2页
第2页 / 共65页
02-2 理论分布(正式)_第3页
第3页 / 共65页
02-2 理论分布(正式)_第4页
第4页 / 共65页
02-2 理论分布(正式)_第5页
第5页 / 共65页
点击查看更多>>
资源描述

《02-2 理论分布(正式)》由会员分享,可在线阅读,更多相关《02-2 理论分布(正式)(65页珍藏版)》请在金锄头文库上搜索。

1、第二章 概率与理论分布第二节、理论分布2.2.1二项式分布 2.2.1.1二项总体及二项式分布 二项总体(binary population):间断性随机变数 的总体包含两项,即非此即彼的两项,它们构成的总 体称为二项总体。如小麦种子的发芽与不发芽,大豆子叶为黄色和 绿色,调查荔枝蒂蛀虫为害分为受害株和不受害株等 等。通常将二项总体中的“此”事件以变量“1”表示,具 概率p;将“彼”事件以变量“0”表示,具概率q。因而 二项总体又称为0、1总体,其概率则有p+q=1或者 q=p-1。 第二节、理论分布2.2.1二项式分布 2.2.1.1二项总体及二项式分布 二项式分布(binomial dis

2、tribution): 从二项总体中抽取n个个体,则间断性变量y就 有n+1种取值,这n+1种取值各有其概率,因 而由变量及其概率就构成了一个分布,这个分 布就是二项式分布(又称二项分布或者二项式 概率分布。 第二节、理论分布2.2.1二项式分布 2.2.1.1二项总体及二项式分布 如观察使用某种农药后供试5只蚜虫的死亡数目, 记 “死”为“0”,记 “活”为“1”,观察结果将出现6个事 件:5只全死,4死1活,3死2活,2死3活,1死4活, 5只全活,这6个事件就构成一个完全事件系,但6个 事件的概率不同,将完全事件系的总概率1分布到6个 事件中去,就是所谓的概率分布。如果将活的虫数y 来代

3、表相应的事件,便得到了关于变量y的概率分布 。2.2.1.2二项分布的概率计算方法大豆子叶的颜色受一对等位基因控制,黄 色(Y)对绿色(G)为显性,则F2代按3:1 比例分离,黄色子叶的概率为0.75(3/4),绿 色子叶的概率为0.25(1/4),这是二项总体的 概率分布。若从总体中抽取n粒,那么y粒是 黄子叶的概率是多少呢?1以二粒荚为例:出现黄色子叶种子数(y)可能就 有2+1种取值,即为0、1或2个。 出现0个y的概率:P(y=0)= 出现一黄一绿的概率:P(YG)= P(GY)= 这两个为互斥事件 所以P(y=1)为3/16+3/16=6/16 出现2个Y的概率:P(y=2)= 故,

4、出现 黄子叶种子数0,1,2三个事件A0.A1.A2构成一完 全事件系。P(A0)+P(A1)+P(A2)=黄子叶数(y) 0 1 2 黄子叶出现y次的概率 1/16 6/16 9/16 合计为12以三粒为例:出现黄色子叶的种子数(y)可能为 0.1.2或3个。 出现0个y的概率:P(y=0)= 出现1个y的概率:P(GGY)= ,P(GYG)= P(YGG)= , 故 P(y=1)= 出现2个Y的概率:P(YYG)= , P(YGY)= P(GYY)= , 故P(y=2)= 出现3个Y的概率:P(GGG)= P(y=3)= 所以完全事件系P(A0)+P(A1)+P(A2)+ P( A3)=从

5、以上可看出,每一复合事件的概率必等于该 事出现的组合数乘以单个事件的概率。 组合数公式为: n相当于豆荚内的种子总数,y相当于黄色的种 子数,所以: P(y)= 例如:n=3,y=2 P(y=2)=二项式中包括两项,这两项的概率为p、q ,则变量y的概率函数为:这一分布律也称为贝努里(Bernoulli)分 布,且有二项分布的概率之和等于1。2.2.1.3二项式分布概率的计算例1、棉田盲椿象危害的统计概率是从调查 2000株后获得的近似值p=0.35,现受害株事 件为A,其概率为p(A)=0.35,未受害株事件 为对立事件,其概率为q=1-p=0.65。这一试 验是可以重复的。假定作了多次试验

6、,即抽 出n株为一个抽样单位,那么,试问出现有y 株是受害的,其概率应为多少?n=1受害株树y=0,1n=5受害株树y=0,1,2,3,4,5 P(y=k)= 2.2.1.3二项式分布概率的计算例1、n=1时, 由于已知 P(A)=0.35,P( )=1-0.35=0.65 总体的理论分布则以n乘上述概率分布,即np 和n(1-p),所以有2000*0.35=700株受害和 2000*0.65=1300株未受害。 n=5 时,受害株数 y=0,1,2,3,4,5 ,变量y相应 的概率函数 P(y=i)= ,其累积函 数F(y)就如P54页的公式。 调查单位为5株的概率分布表就如P55的表4.2

7、。例2、某种昆虫在某地区的死亡率为40%,即p=0.4, 现对这种害虫用一种新药进行治虫试验,每次抽样 10头作为一组治疗。试问新药无疗效,在10头中死 3头、2头、1头,以及全部愈好的概率为多少?10 头中不超过两头死亡的概率各为多少?n=10 p=0.4 q=0.6 求 P(y=3) p(y=2) p(y=1) p(y=0) P(y=3)=p(y=2)=p(y=1)=p(y=0)= =0.21499 =0.12093 =0.04031=0.00605F(2) =p(y=0)+p(y=1)+p(y=2)= 0.00605 + 0.04031 +0.12093 = 0.16729 如果问超过两

8、头死去的概率是多少?= P(y=3)+ P(y=4)+ P(y=5)+ P(y=6)+ P(y=7)+ P(y=8)+ P(y=9)+ P(y=10)如用对立事件来解则容易的多:1- F(2) =1-=1-0.16729=0.832712.2.1.4二项分布的形状及参数二项分布定义如下:设随机变量y所有可能取的值为零或正整数:0,1,2,,n,且有Pn(y=k) = k=0,1,2,n其中p0,q0,p+q=1,则称随机变量y服从参数为n和p的二项分布(binomial distribution),记为 yB(n,p)。二项分布是一种离散型随机变量的概率分布。参数n称为离散参数 , 只能取正整

9、数; p 是连续参数,它能取0与1之间的任何数值,q由p确定,故不是另一个独立参数。二项分布由n和p两个参数决定: 1、当p值较小且n不大时 ,分 布 是偏倚的。但随着n的增大 ,分布逐渐趋于对称,如图42 所示; 图42 n值不同的二项分布比较 图43 p值不同的二项分布比较2、当 p 值 趋 于 0.5 时 ,分 布 趋于对称, 如图43所示;3、对于固定的n及p,当k增加时,Pn(k)先随之增加并达到其极大值,以后又下降。 此外 ,在n较大,np、nq 较接近时 ,二项分布接近于正态分布;当n时,二项分布的极限分布是正态分布。二项分布的平均数与标准差统计学证明,服从二项分布B(n,p)的

10、随机变量y平 均数、标准差与参数n、p有如下关系:=np = 2=npq如果n适当大,如大于30,而 p值又不太小,并且np及nq均不小于5时,那么这个二项分布趋近于即将介绍的正态分布2.2.1.4多项式分布多项总体:若总体中包含几种特性或者分类标志,可将总 体中的个体分为几类。这种将变数资料分为3类 或者多类的总体称为多项总体。例如某种农药在防治某种病害的效果时可能 有的效果好,有的无效果,有的有副作用,这些 构成的总体就是多项总体。研究多项总体的随机变量的概率分布可使用 多项式分布(multinomial distribution)。2.2.1.4多项式分布设总体中共包含有k项事件,它们的

11、概率分别为p1、p2、 p3、p4pk,且 p1+p2+p3+pk=1。若从这种总体中随机抽取n个个体, 那么可能 得到这k项的个数分别为y1、y2、y3yk,显然 y1+y2+y3+yk=n。 这样一个事件的概率应该是: P(y1、y2、y3yk) =这一概率分布称为多项式分布。2.2.1.4多项式分布例3、某药对病人有效的概率为1/2,对病人无效的 概率为1/3,有副作用的概率为1/6,若随机抽取 2个试验该药的病人,那么我们抽取的结果包括 这样几个事件:2个病人有副作用;1个无效,1 个有副作用;2个无效;1个有效,1个有副作用 ;1个有效,1个无效;2个均有效。这几个事件 的概率可用以

12、上公式计算。如P57页2.2.1.5泊松分布二项分布的一种极限 分布 泊松分布 (Poisson distribution) 在二项分布中,当某事件出现的概率 p或q 值比较 小 (如小于 0.1 ), 而样本容量又很大,二项分布就接近 泊松分布了。主要描述大量实验中随机稀疏现象。如 将np=m(n比较大,而m比较小时),其概率密度函数为 :P(y) =e=2.71828, y=0,1,2其参数为: 即:平均数、方差与标准差如下: =m, 2 =m,=不同m值的分布及例子如书本第58页图 4.4和例4.4。m的大小决定其分布形状,当m值很小时 分布呈很偏斜形状,m增大后则逐渐对称, 趋向于后面

13、要介绍的正态分布。泊松分布有一特性:即两个或两个以上的 泊松分布之和,也是一个泊松分布。2.2.2正态分布正态分布(normal distribution)是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从或近似服从正态分布的。许多统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。因此在统计学中,正态分布无论在理论研究上还是实际应用中 , 均占有重要的地位。 2.2.2.1二项分布的极限正态分布以二项分布棉株受害率为例,假定受害率p=0.5,q=p=0.5,现假定每个抽 样单位包括20株,这样y有21种取值,其受害株的概率

14、p(y)= 于是概率分布计算如下:将这些概率绘于图。此图是对称的。如p=q,不论n值大或小,二项分布的多边形图必形成对称;如pq,而 n很大时,多边形图仍趋对称。n 增加到无穷多时,每组的直方形都一一变 为纵轴线,此时的多边形边变为一光滑曲线。此光滑曲线是二项分布的极 限曲线。此极限曲线属于连续性变数分布曲线。这一曲线一般称之为正态分布曲线或正态概率密度曲线。如图4-4 图44 正态分布密度曲线2.2.2.2正态分布的定义及其特征 (一) 正态分布的定义 若连续型随机变量y的概率分布密度函数为 (4-6)其中为平均数,2为方差,则称随机变量y服从 正态分布(normal distribution), 记为yN(,2)。 相应的概率分布函数为 (4-7)分布密度曲线如图44所示。 (二) 正态分布的特征 1、正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为y=;算术平均数、中数和众数是相等的;2、f(y) 在 y = 处达 到 极 大 , 极大值 ; 3、f(y)是非负函数,以y轴为渐近线,分布从-至+; 4、曲线在y=处各有一个拐点,即曲线在(-, -)和(+,+) 区间上是下凸的,在-,+区间内 是上凸的,曲线两尾向左右延伸,永不接触横轴;5、正态分布有两个参数,即平均数和标准差,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号