卫生统计学:第6章 总体均数与总体率的估计

上传人:公**** 文档编号:568851080 上传时间:2024-07-27 格式:PPT 页数:108 大小:1.42MB
返回 下载 相关 举报
卫生统计学:第6章 总体均数与总体率的估计_第1页
第1页 / 共108页
卫生统计学:第6章 总体均数与总体率的估计_第2页
第2页 / 共108页
卫生统计学:第6章 总体均数与总体率的估计_第3页
第3页 / 共108页
卫生统计学:第6章 总体均数与总体率的估计_第4页
第4页 / 共108页
卫生统计学:第6章 总体均数与总体率的估计_第5页
第5页 / 共108页
点击查看更多>>
资源描述

《卫生统计学:第6章 总体均数与总体率的估计》由会员分享,可在线阅读,更多相关《卫生统计学:第6章 总体均数与总体率的估计(108页珍藏版)》请在金锄头文库上搜索。

1、第第6章章 总体均数与总体率的估计总体均数与总体率的估计【例例6-1】欲了解某地正常成年男性血欲了解某地正常成年男性血清胆固醇的平均水平,某研究者在该地清胆固醇的平均水平,某研究者在该地随机抽取正常成年男性随机抽取正常成年男性120名,得其血名,得其血清胆固醇的清胆固醇的均数为均数为3.86mmol/L,标准标准差为差为1.73 mmol/L,据此认为据此认为该地正常该地正常成年男性血清胆固醇的平均水平为成年男性血清胆固醇的平均水平为3.86 mmol/L。以样本均数以样本均数3.86mmol/L来代来代表该地区正常成年男性血清胆固醇的平表该地区正常成年男性血清胆固醇的平均水平是否合适,为什么

2、?均水平是否合适,为什么?第一节第一节 抽样误差与标准误抽样误差与标准误【例例6-2】假设已知某地正常成年男性假设已知某地正常成年男性红细胞数的红细胞数的均值为均值为5.001012/L,标准,标准差为差为0.431012/L。现从该总体中进行。现从该总体中进行随机抽样,每次抽取随机抽样,每次抽取10名正常成年男名正常成年男子,并测得他们的红细胞数,抽取子,并测得他们的红细胞数,抽取100份样本,计算出每份样本的均数。份样本,计算出每份样本的均数。每个样本均数是否都恰好等于总体均每个样本均数是否都恰好等于总体均数,各样本均数是否相等?数,各样本均数是否相等?均数的抽样误差均数的抽样误差(sam

3、pling error)抽样误差抽样误差:由于个体变异的存在,由于个体变异的存在,在抽样研究在抽样研究中产生的中产生的样本统计量和总体参数样本统计量和总体参数之间的差异之间的差异原因:个体变异抽样原因:个体变异抽样表现:表现:样本均数和总体均数间样本均数和总体均数间的差别、的差别、样本均样本均数和样本均数间数和样本均数间的差别的差别抽样误差是抽样误差是不可避免不可避免的,但抽样误差有自己的的,但抽样误差有自己的规律规律样本均数的分布和标准误样本均数的分布和标准误当固定样本含量当固定样本含量n从同一总体中随机抽取多个样本从同一总体中随机抽取多个样本时,样本均数间存在差异,那么这些样本均数的时,样

4、本均数间存在差异,那么这些样本均数的分布是怎样的呢?分布是怎样的呢?能否用某个指标来描述它们之间的变异?能否用某个指标来描述它们之间的变异?图图6-1 1006-1 100个样本均数的频数分布图个样本均数的频数分布图样本统计量的标准差称为标准误样本统计量的标准差称为标准误(standard error)样本均数的样本均数的标准差标准差称为称为均数的标准误均数的标准误(SEM),用用 表示表示 说明样本均数围绕总体均数的离散程度,可用说明样本均数围绕总体均数的离散程度,可用来反映样本均数的抽样误差大小来反映样本均数的抽样误差大小中心极限定理从正态总体从正态总体 N ( , 2) 中,随机抽取例数

5、为中,随机抽取例数为 n 的的样本,样本,样本均数也服从正态分布样本均数也服从正态分布;即使从偏态总体随机抽样,当即使从偏态总体随机抽样,当 n 足够大时足够大时(n 50),样本均数近似正态分布,样本均数近似正态分布从均数为从均数为 ,标准差为,标准差为 的正态或偏态总体中,的正态或偏态总体中,抽取例数为抽取例数为 n 的样本,的样本,样本均数的总体均数样本均数的总体均数也为也为 ,标准差标准差与原标准差成正比,与样本与原标准差成正比,与样本例数的平方根成反比例数的平方根成反比样本均数样本均数=总体均数总体均数 样本标准差样本标准差=均数的均数的标准差标准差=均数的标准均数的标准误误已知:已

6、知:标准误计算公式标准误计算公式未知:实际应用中,若标准差固定不变,可通过增加样本含量n来减少抽样误差例:例:如某年某市如某年某市120120名名1212岁健康男孩,岁健康男孩,已求得均数为已求得均数为143.07143.07cmcm,标准差为,标准差为5.705.70cmcm,按公式计算,则标准误为:,按公式计算,则标准误为: 意义不同意义不同: 标准差:表示观测值的变异程度标准差:表示观测值的变异程度 标准误:反映抽样误差的大小标准误:反映抽样误差的大小 用途不同用途不同: 标准差:确定医学参考值范围标准差:确定医学参考值范围 标准误:用于统计推断(参数估计、假设检验)标准误:用于统计推断

7、(参数估计、假设检验) 公式不同公式不同: 标准差与标准误的区别标准差与标准误的区别第二节第二节 t t 分布分布 一、一、t t 分布的概念分布的概念 正正态态变变量量X采采用用z z( (X)/)/变变换换,则则一一般般的的正正态态分分布布N N (,)(,)即即变变换换为为标标准准正正态态分分布布N N (0,1)(0,1)。又因从正态总体抽取的样本均数服从正态分布又因从正态总体抽取的样本均数服从正态分布 N N (, ),(, ),同样可作正态变量的同样可作正态变量的u u变换变换, ,即即v 实际工作中由于理论的标准误往往未实际工作中由于理论的标准误往往未知,知,而用样本的标准误作为

8、的估计值,而用样本的标准误作为的估计值, 此时就不是此时就不是z z变换而是变换而是t t变换了,即下式:变换了,即下式: t t分布于分布于19081908年由英国统年由英国统计学家计学家W.S.GossetW.S.Gosset以以“StudentStudent”笔名发表,笔名发表,故又称故又称StudentStudent分布。分布。StudentsStudents t t- -distribution)distribution)。 我我们们常常把把自自由由度度为为的的t t分分布布曲曲线线下下双双侧侧尾尾部部合合计计面面积积或或单单侧侧尾尾部部面面积积为为指指定定值值时时,则则横横轴上相应

9、的轴上相应的t t界值记为界值记为t t,。当当=20=20, =0.05=0.05时,记为时,记为t t0.05, 200.05, 20;当当=22=22, =0.01=0.01时,记为时,记为t t0.01, 220.01, 22。对对于于t t, , 值值,可可根根据据和和值值,查查附附表表2 2,t t界值表。界值表。t分布是分布是t检验的理论基础。检验的理论基础。t值与样值与样本均数和总体均数之差成正比,与标本均数和总体均数之差成正比,与标准误成反比准误成反比 。在在t分布中分布中t值越大,其两侧或单侧以值越大,其两侧或单侧以外的面积所占曲线下总面积的比重就外的面积所占曲线下总面积的

10、比重就越小越小 ,说明在抽样中获得此,说明在抽样中获得此t值以及值以及更大更大t值的机会就越小,这种机会的值的机会就越小,这种机会的大小是用概率大小是用概率P来表示的。来表示的。t值越大,则值越大,则P值越小;值越小;反之,反之,t值越小,值越小,P值越大。值越大。 根据上述的意义根据上述的意义在同一自由度下,在同一自由度下,t t ,则,则P ; 反之,反之,tt,则,则P。-tt0单侧:单侧: 双侧:双侧: 即即第三节第三节 总体均数的估计总体均数的估计 参数估计参数估计: :用样本指标(统计量)估计总体指用样本指标(统计量)估计总体指标(参数)称为标(参数)称为参数估计参数估计。估计总体

11、均数的方法有两种,即:估计总体均数的方法有两种,即:点值估计点值估计(point estimation point estimation )区间估计区间估计(interval estimationinterval estimation)。)。一、点值估计一、点值估计 点值估计:点值估计:是直接用样本均数作为总体是直接用样本均数作为总体均数的估计值。均数的估计值。此法计算简便,但由于存在抽样误差,此法计算简便,但由于存在抽样误差,通过样本均数不可能准确地估计出总体通过样本均数不可能准确地估计出总体均数大小,也无法确知总体均数的可靠均数大小,也无法确知总体均数的可靠程度程度 。二、区间估计二、区间

12、估计 区区间间估估计计是是按按一一定定的的概概率率(1-1-)估估计计包包含含总总体体均均数数可可能能的的范范围围,该该范范围围亦亦称称总总体体均均数数的的可可信区间(信区间(confidence intervalconfidence interval,缩写为,缩写为CI)。)。1-1-称称为为可可信信度度,常常取取1-1-为为0.950.95和和0.990.99,即即总体均数的总体均数的95%95%可信区间和可信区间和99%99%可信区间。可信区间。1-1-(如如9595)可可信信区区间间的的含含义义是是:总总体体均均数数被被包包含含在在该该区区间间内内的的可可能能性性是是1-1-,即即(9

13、595),没有被包含的可能性为,没有被包含的可能性为,即(,即(5 5)。)。总体均数可信区间的计算1.当已知在总体中抽样,样本均数的在总体中抽样,样本均数的z z变换变换值有值有95%95%可能性落在可能性落在(-1.96,1.96)(-1.96,1.96)之间之间在总体中抽样,样本均数所计算的区间在总体中抽样,样本均数所计算的区间有有95%95%可能包括总体均数可能包括总体均数 2.5%2.5%95% 2 未知但n足够大(n50)-t /2, v 0 t /2, v 3 3 未知未知且且n n较小较小( (n n100) 100) 按按t t分布的原理分布的原理 单侧可信区间和双侧可信区间

14、单侧可信区间和双侧可信区间应用条件双侧双侧100(1-)%可信区间上侧100(1-)%可信区间下侧100(1-)%可信区间已知未知,n足够大未知,n较小单侧单侧标准正态法标准正态法近似正态法近似正态法t分布法分布法图图6-5 6-5 从从NN(0, 10, 1)中随机抽样算得的)中随机抽样算得的100100个个9595可信区间(可信区间(n n=10=10)可信区间的含义可信区间的含义XN(0,1)置信区间的确切含义:置信区间的确切含义:从正态总体中随机抽取从正态总体中随机抽取100100个样本,可以计算个样本,可以计算100100个样本均数和标准差,个样本均数和标准差,也可以算得也可以算得1

15、00100个均数的可信区间。当个均数的可信区间。当1-1-=95%=95%时,时,在算得的在算得的100100个可信区间中,平均约有个可信区间中,平均约有9595个个可信区间包含可信区间包含了总体均数,而另外了总体均数,而另外5 5个不包括个不包括。由此可见:由此可见:可信区间的确切含义指的是,如果可信区间的确切含义指的是,如果能够进行重复抽样试验,平均有能够进行重复抽样试验,平均有1-1-(如(如95%95%)的可信区间包含了总体参数的可信区间包含了总体参数在实际工作中,只能根据一次试验结果估计可信在实际工作中,只能根据一次试验结果估计可信区间,我们就认为该区间包含了总体参数,根据区间,我们

16、就认为该区间包含了总体参数,根据小概率事件不太可能在一次试验中发生的原理,小概率事件不太可能在一次试验中发生的原理,该结论错误的概率小于或者等于该结论错误的概率小于或者等于0.050.05(5%5%)例例 某市某市120120名名1212岁健康男孩身高均数为岁健康男孩身高均数为143.07143.07cmcm,标准误为,标准误为0.520.52cmcm,试估计该市,试估计该市1212岁康男孩身高均数岁康男孩身高均数95%95%和和99%99%的可信区间。的可信区间。 95%95%的可信区间为的可信区间为 143.07143.071.961.960.520.52,即(,即(142.05142.0

17、5,144.09144.09)99%99%的可信区间为的可信区间为 143.07143.072.582.580.520.52, , 即(即(141.73141.73,144.41144.41) 例例6-3中,因中,因n=120 , 试求该地正常成年男性血清胆试求该地正常成年男性血清胆固醇平均水平的固醇平均水平的95可信区间。可信区间。 即(即(3.553.55,4.174.17)mmol/L mmol/L 例例 随机抽取榨菜随机抽取榨菜10包,亚硝酸盐含量包,亚硝酸盐含量均数为均数为17.6mg/kg,标准差,标准差1.64mg/kg,估计这批榨菜的平均亚硝酸盐含量是,估计这批榨菜的平均亚硝酸

18、盐含量是多少?多少?单侧可信区间!估计单侧可信区间!估计95%,(仅上限有,(仅上限有意义,不高于某一个数值)意义,不高于某一个数值)上限为上限为 故故95%CI为低于为低于18.55mg/kg可信区间的两个要素可信区间的两个要素可信度(可信度(Confidence):可靠性,即:可靠性,即1-。一般一般取取90%, 95,可人可人为控制控制精确性精确性(Precision):区间的大小(区间的长度):区间的大小(区间的长度),越小越好,越小越好必须二者兼顾必须二者兼顾均数的可信区间与参考值范围的区别区别点区别点均数的可信区间均数的可信区间参考值范围参考值范围意义意义按预先给定的概率,确定的未

19、按预先给定的概率,确定的未知参数的可能范围知参数的可能范围“正常人正常人”的解剖、生理、生化、的解剖、生理、生化、某项指标的波动范围某项指标的波动范围计算计算公式公式已知或已知或未知但未知但 n n 较大较大未知:未知:正态分布:正态分布:偏态分布:偏态分布:P PX X -P P100-100-X X用途用途估计总体均数估计总体均数判断观察对象的某项指标正常与判断观察对象的某项指标正常与否否 第五节第五节 总体概率的估计总体概率的估计率的抽样误差:由抽样引起的样本率与总体率率的抽样误差:由抽样引起的样本率与总体率的差异称为率的抽样误差的差异称为率的抽样误差率的抽样误差亦用率的标准误度量,率的

20、抽样误差亦用率的标准误度量,均数的抽样误差用均数的标准误度量均数的抽样误差用均数的标准误度量,根据样本含量根据样本含量n n和样本频率和样本频率p p的大小,可以采用的大小,可以采用查表法和正态近似法计算总体概率的置信区间。查表法和正态近似法计算总体概率的置信区间。1.1.查表法查表法2.2.正态近似法正态近似法 查表法查表法当样本含量当样本含量n n较小(如较小(如n n5050),特别是),特别是p p很接很接近近0 0或或100%100%时,可查附表时,可查附表“百分率的可信区间百分率的可信区间表表”,求得总体概率的可信区间。,求得总体概率的可信区间。 例例 某医院对某医院对3939名前

21、列腺癌患者实施开放手术治疗,术名前列腺癌患者实施开放手术治疗,术后有合并症者后有合并症者2 2人,试估计该手术合并症发生概率的人,试估计该手术合并症发生概率的95%95%置信区间。(置信区间。(n=39,x=2n=39,x=2)P337 P337 1-171-1795%: 1-17:1%-17%95%: 1-17:1%-17%99%: 0-21:0%-21%99%: 0-21:0%-21%1.1.查表法查表法例例 某医生用某药物治疗某医生用某药物治疗3131例脑血管梗塞患者,其中例脑血管梗塞患者,其中2525例患者治疗有效,试求该药物治疗脑血管梗塞有效例患者治疗有效,试求该药物治疗脑血管梗塞有

22、效概率的概率的95%95%置信区间。置信区间。(n=31,x=25n=31,x=25)P337P337P(N-X)= P(31-25)= P(6)= 8-38 P(N-X)= P(31-25)= P(6)= 8-38 (8%-38%)(8%-38%)P(25)=1- P(6)= 1- 8%-38%=62%-92%P(25)=1- P(6)= 1- 8%-38%=62%-92%v例例 某某医医院院用用某某药药治治疗疗脑脑动动脉脉硬硬化化症症2222例例,其其中中显显效效者者1010例例。问问该该药药总总显显效效率率的的95%95%可可信信区区间为多少?间为多少?v本本例例n n=22, =22,

23、 X X=10, =10, 查查附附表表 得得此此两两数数相相交交处处的的数数值值为为24246868,即即该该药药总总显显效效率率的的95%95%可可信信区区间为间为(24%24%,68%68%)。 2.2.正态近似法正态近似法当当n n足够大,且样本频率足够大,且样本频率p p 和(和(1-1-p p)均不太小)均不太小时,如时,如npnp和和n n(1-(1-p p) )均大于均大于5 5时时,p p 的抽样分布的抽样分布接近正态分布,则总体率的可信区间:接近正态分布,则总体率的可信区间:例例 用某种仪器检查已确诊的乳腺癌患者用某种仪器检查已确诊的乳腺癌患者200200名,名,检出乳腺癌

24、患者检出乳腺癌患者8080例,检出率为例,检出率为40%40%。估计该。估计该仪器乳腺癌总体检出率的仪器乳腺癌总体检出率的95%95%置信区间。置信区间。2.正态近似法正态近似法n=800,p=0.25,1-p=0.75,95%95%的可信区间为的可信区间为:25%25%1.961.961.53% 1.53% 即(即(22.00%22.00%,28.00%28.00%) 99%99%的可信区间为的可信区间为:25%25%2.582.581.53% 1.53% 即(即(21.05%21.05%,28.95%28.95%) 例例 检检查查居居民民800人人粪粪便便中中蛔蛔虫虫阳阳性性200人人,阳

25、阳性性率率为为25%,试试求求阳阳性性率率的的标标准准误误及及95%,99%的可信区间。的可信区间。例例 某市某市20092009年随机测量了年随机测量了9090名名2020岁健康大学生岁健康大学生的身高,其均数为的身高,其均数为172.2cm172.2cm,标准差为,标准差为4.5cm4.5cm,试估计该市试估计该市20092009年年2020岁健康大学生平均身高的岁健康大学生平均身高的95%95%置信区间。置信区间。自学内容:自学内容:第四节第四节 二项分布和二项分布和poisson分布分布第第4 4节节二项分布与二项分布与PoissonPoisson分布分布对于n次独立的试验 ,如果每次

26、试验结果出现且只出现对立事件A与 之一,在每次试验中出现A的概率是常数(0 1) ,因而出现对立事件 的概率是1- ,则称这一串重复的独立试验为n重贝努利试验,简称贝努利试验(Bernoulli trial) 【问问题题6-4】假假设设服服用用某某药药物物后后有有10%的的人人出出现现过过敏敏反反应应。若若3人人服服药药,出出现现0、1、2或或3个个人人过过敏敏的概率分别是多少?的概率分别是多少?组合(Combination):从n个元素中抽取x个元素组成一组(不考虑其顺序)的组合方式个数记为 牛顿二项展开式:牛顿二项展开式:1.二项分布的概率函数二项分布的概率函数一般地,在一个n重贝努利试验

27、中,令X表示事件A发生的次数,则随机变量X所有可能的取值为0, 1, 2, , n,且其概率函数为:贝努利试验序列中某一结果A出现次数的概率分布称二项分布(binomial distribution), 记为:2.二项分布的图形当=0.5时,分布对称;当 0.5,分布呈偏态;当0.5时分布呈负偏态;特别是当n值不是很大时,偏离0.5愈远,分布愈偏随着n的增大,二项分布逐渐逼近正态分布。如 =0.30,n=5和n=10时,图形呈偏态,当n=30时,图形已接近正态分布。一般地说,如果n或n(1-)大于5时,常可用正态近似原理处理二项分布问题3.1 二项分布的性质 :累积概率(1)二项分布的概率之和

28、等于1(2)单侧累积概率至多有至多有mm例阳性的概率(下侧累积概率)例阳性的概率(下侧累积概率)至少有至少有mm例阳性的概率(上侧累积概率)例阳性的概率(上侧累积概率)3.2 二项分布的性质 :均数和方差阳性结果发生数X的总体均数总体方差总体标准差4. 二项分布的抽样分布及其性质二项分布的随机抽样性质仍然被中心极限定理所反映在n足够大时,样本率近似服从正态分布样本率p的均数等于样本率p的标准差(率的标准误) 如果总体率如果总体率未知,用样本率未知,用样本率p估计估计5. 二项分布的应用:区间估计查表法查表法,适用于n50时;正态近似法正态近似法,适用于n较大,p和1-p均不太小,如np和n(1

29、-p)均大于5时。 此时总体率的1-可信区间如下 例 某医院应用氨苄青霉素治疗呼吸道感染,45例患者中有2例发生过敏反应。试估计过敏反应发生率的95%可信区间 查查附附表表5 5(百百分分率率的的可可信信区区间间表表),n n=45=45的的行行与与X X=2=2的的列列交交叉叉处处的的数数值值为为1 11515, 即即氨氨苄苄青青霉霉素素过过敏反应发生率的敏反应发生率的95%95%可信区间为(可信区间为(1%1%,15%15%) 例 某市疾控中心对该市郊区200名小学生进行贫血的检测,结果发现有80名小学生贫血,检出率为40.0%。试估计该区贫血发生率的95%可信区间 【例6-5】已知某地新

30、生儿先天性心脏病的发病率为9,试计算该地100名新生儿中有3人患先天性心脏病概率。能否用前述二项分布进行计算?是否有更为简便的计算方法?若用二项分布: 【例6-5】已知某地新生儿先天性心脏病的发病率为9,试计算该地100名新生儿中有3人患先天性心脏病概率。能否用前述二项分布进行计算?是否有更为简便的计算方法?二、Poisson (泊松)分布当二项分布中n很大,p很小时,二项分布就变为Poisson分布,Poisson分布实际上是二项分布的极限分布法国数学家Simeon Denis Poisson (1781-1840) 1837年在关于判断的概率之研究一文中提出的描述随机现象的一种常用分布 P

31、oisson分布也是一种重要的离散型概率分布,用于研究单位时间、单位人群、单位空间内,某稀有事件发生次数的分布单位体积水中细菌数单位体积空气中粉尘数单位时间内放射性物质放射出的质点数单位空间中某些昆虫数一定人群中恶性肿瘤或罕见非传染性疾病患病数或死亡数可以认为满足以下三个条件的随机变量服从Poisson分布:平稳性:X的取值与观察单位的位置无关,只与观察单位的大小有关独立性:在某个观察单位上X的取值与前面各观察单位上X的取值独立(无关)普通性:在充分小的观察单位上X的取值最多为1Poisson分布的概率:分布的概率:= n为为Poisson分布的总体均数;分布的总体均数;X=0,1,2,式中:

32、式中:X为单位时间(或面积、容积等)某事件发生数;为单位时间(或面积、容积等)某事件发生数;e为自然对数的底,为自然对数的底,e2.71828从式中可知,从式中可知,为为Poisson分布的唯一参数。分布的唯一参数。X服从以服从以为参数的为参数的Poisson分布,可记为分布,可记为XP()。)。递推公式:递推公式: 【例6-5】已知某地新生儿先天性心脏病的发病率为9,试计算该地100名新生儿中有3人患先天性心脏病概率。能否用前述二项分布进行计算?是否有更为简便的计算方法? =n=100*0.009=0.92. Poisson分布的累计概率Poisson分布的图形:分布的图形:根根据据,按按式

33、式 可可计计算算出出的的所所有有可可能能取取值值时时的的概概率率(),以以其其为为纵纵轴轴,可可绘绘制制出出poisson分分布布概概率率分分布布列列的的图图形形,可可见见,poisson分分布布图图形形形形状状完完全全取取决决于于的的大大小小。当当时图形基本对称,随时图形基本对称,随的增大,图形渐近于正态分布。的增大,图形渐近于正态分布。Poisson分布的特性和应用条件:分布的特性和应用条件:1.离散型分布离散型分布 .Poisson分布只有一个参数,即参数分布只有一个参数,即参数;2.Poisson分布可看成二项分布的特例,其应用条件也就是二分布可看成二项分布的特例,其应用条件也就是二项

34、分布的应用条件。项分布的应用条件。 3. 方差等于均数:即方差等于均数:即2= 。为为Poisson分布的重要特征。分布的重要特征。4. Poisson分布在分布在不大时呈左偏态分布,随着不大时呈左偏态分布,随着的增大而逐渐的增大而逐渐趋于对称。当趋于对称。当20时,可认为近似正态分布时,可认为近似正态分布5. Poisson分布的可加性分布的可加性。若若X1, X2, Xk相互独立,且它们分别服从以相互独立,且它们分别服从以1,2, k为参数的为参数的Poisson分布,则分布,则T=X1+ X2+ +Xk也服从也服从Poisson分布,其参数为分布,其参数为1+2+ k。Poisson分布

35、的可加性:分布的可加性:Poisson分布的可加性:分布的可加性:n例如例如:某放射物质每某放射物质每.s放射粒子数服从均数为放射粒子数服从均数为.的的poisson分布,现随机取次观测结果进行研究,这次观测结分布,现随机取次观测结果进行研究,这次观测结果分别为每果分别为每.s反射,及个粒子数,问每反射,及个粒子数,问每.s放射粒放射粒子数为多少?并指出其服从于均值为多少的子数为多少?并指出其服从于均值为多少的poisson分布。分布。n本例本例X1=2,X2=3,X3=4,利用利用poisson分布的可加性原理得到分布的可加性原理得到n X1X2X3=2349个个n均值为均值为2.2+2.2

36、+2.2=6.6n每每.s放射粒子数为个,每放射粒子数为个,每.s放射粒子数服从于均值放射粒子数服从于均值为为.的的poisson分布分布poisson分布与二项分布 及正态分布的关系 poisson分布可视为二项分布的特例若某种现象的发生率甚小,而样本例数甚多时,则二项分布逼近poisson分布 poisson分布的正态近似一般在实际应用中,当时,poisson分布近似正态分布,资料可根据正态分布原理处理,从而简化计算poisson分布的应用 poisson分布的应用条件 凡具有贝努利实验序列个特点且很小n大时,其相应的变量一般认为服从poisson分布. 课题延伸课题延伸一、抽样试验 从正

37、态分布总体从正态分布总体N N(5.00,0.505.00,0.502 2)中,每次随机)中,每次随机抽取样本含量抽取样本含量n n5 5,并计算其均数与标准差;重复抽,并计算其均数与标准差;重复抽取取10001000次,获得次,获得10001000份样本;计算份样本;计算10001000份样本的均数份样本的均数与标准差,并对与标准差,并对10001000份样本的均数作直方图。份样本的均数作直方图。 按上述方法再做样本含量按上述方法再做样本含量n n1010、样本含量、样本含量n n3030的抽样实验;比较计算结果。的抽样实验;比较计算结果。抽样试验(n=5)抽样试验(n=10)抽样试验(n=

38、30)1000份样本抽样计算结果总体的均数总体标准差s均数的均数均数标准差n=55.000.504.990.22120.2236n=105.000.505.000.15800.1581n=305.000.505.000.09200.09133个抽样实验结果图示总体均数可信区间的计算1.当已知在总体中抽样,样本均数的在总体中抽样,样本均数的z z变换变换值有值有95%95%可能性落在可能性落在(-1.96,1.96)(-1.96,1.96)之间之间在总体中抽样,样本均数所计算的区间在总体中抽样,样本均数所计算的区间有有95%95%可能包括总体均数可能包括总体均数1. 总体均数可信区间估计总体均数

39、可信区间估计 1)查表法)查表法:X 50,尤其,尤其p0 或或 1时时 例例7.13:将一个面积为:将一个面积为100cm2的培养皿置于某病的培养皿置于某病室中,室中,1小时后取出,培养小时后取出,培养24小时,查得小时,查得8个菌落,个菌落,求该病室平均求该病室平均1小时小时100cm2细菌数的细菌数的95%可信区间。可信区间。 查查附表附表7,x=8 得:得:3.4 15.8故该病室平均故该病室平均1小时小时100cm2细菌数的细菌数的95%可信区间可信区间为(为(3.4, 15.8)例例5.15 对某地居民饮用水进行卫生学检测中,随机对某地居民饮用水进行卫生学检测中,随机抽查抽查1mL

40、水样,培养大肠杆菌水样,培养大肠杆菌2个,试估计该地区个,试估计该地区水中每毫升所含大肠杆菌的水中每毫升所含大肠杆菌的95%和和99%可信区间。可信区间。本例本例 x=2 95%可信区间得可信区间得 (0.2,7.2)问题:问题:若求若求该病室平均该病室平均1小时小时50cm2细菌数的细菌数的95%可信区间?可信区间?将上述的上下限各除以将上述的上下限各除以2即可。即可。2)正态近似法)正态近似法: 当当 X 50 时时例例7.14:用计数器测得某放射性物质半小时内发出的脉冲数:用计数器测得某放射性物质半小时内发出的脉冲数为为360个。试估计该放射性物质每个。试估计该放射性物质每30分钟平均脉

41、冲数的分钟平均脉冲数的95%可信区间。可信区间。X样本计数样本计数即该放射性物质每即该放射性物质每30分钟平均脉冲数的分钟平均脉冲数的95%可信区间为可信区间为322.8397.2个。个。当当Poisson分分布布的的观观察察单单位位为为n1时时,其其总总体体均均数数1-的可信区间计算公式为的可信区间计算公式为若欲求该放射物质每分钟平均脉冲数的95%可信区间,因该放射物质每分钟总平均脉冲数为每30min总体平均数的1/30,故只需将每30min总体平均脉冲数的95%可信区间的下、上限322.8和397.2分别除以30,即可求得该放射物质每分钟平均脉冲数的95%可信区间为(10.76,13.24

42、)为监测饮用水的污染情况, 现检验某社区每毫升饮用水中细菌数 , 共得400份记录如下: 试分析饮用水中细菌数的分布是否服从Poisson分布。若服从,按Poisson分布计算每毫升水中细菌数的概率及理论频数1ml水中细菌数水中细菌数0123合计合计次数次数f243120316400经计算得每毫升水中平均细菌数 ,方差 。两者很接近, 故可认为每毫升水中细菌数服从Poisson分布。以0.500代替,得 (k=0,1,2)1ml水中细菌数的分布细菌数次数f频率概率理论频数0 2430.60750.6065 242.601 1200.30000.3033 121.322 310.07750.07

43、58 30.32 3 60.01500.0144 5.76合计 4001.00001.0000 400.002002年韩日世界杯64场比赛中,各队进球数有多有少。大部分是0,1,2个进球,个别队是5个以上进球,最多的是8个进球,平均是1.2578个/场/队。虽然强队大都能进球、赢球(如巴西队),弱队大都不能进球(如中国队)。但宏观上来说,各队进球数服从Poisson分布!平均计数为1.2578的Poisson分布 每场各队进球数 场次 理论数03736.3914745.7722728.7831312.074 2 3.795 1 0.95 6 1 0.25 128 128.00平均计数的可信区间

44、估计=?=?X X/ /n n总计数X较大时, 可用正态近似法:n个单位的总计数 X 50时平均计数的 95%CI:n=1时:例 n=一个单位时间(30分钟),X=360。则30分钟该放射物质的平均脉冲数的95%CI:例 n=3个单位时间(一个单位时间10分钟),X=360。则10分钟该放射物质的平均脉冲数的95%CI:总计数X较小时, 查表法(根据分布直接计算)n个单位的总计数 X 50时:n=1(一个标准单位) :X=8,(3.4, 15.8)n=3 (3个标准单位): X1=8, X2=10, X3=6, X=24。 先查X=24,得95%CI: (15.4,35.6),再除以3, 得: (5.13, 11.87)Poisson的平均计数的可信区间 95%99%X2 0.2 7.2 0.19.3X4 1.010.2 0.612.6X6 2.213.1 1.515.6X8 3.415.8 2.518.5X10 4.718.4 3.721.3X2012.230.810.334.6X3020.242.817.747.2

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号