《统计学:常用概率分布》由会员分享,可在线阅读,更多相关《统计学:常用概率分布(45页珍藏版)》请在金锄头文库上搜索。
1、Common Probability Distribution,要求: 1.熟悉三个分布的(图形与数字)特征和性质 2.掌握三个分布的概率计算,尤其是正态分布 3.了解三个分布之间的关系 4.掌握用正态分布法估计医学参考值范围,常用概率分布,第一节 二项分布,在医学卫生领域的许多试验(或观察)中,人们感兴趣的是某事件是否发生。例如:用白鼠作某药物的毒性试验,感兴趣的是白鼠是否死亡;某新药、新疗法的临床试验观察患者是否治愈;观察某项指标的化验结果是否呈阳性等。用A表示感兴趣的事件,则P(A)为所感兴趣事件发生的概率。,Bernoulli 试验序列,满足以下三个条件的n 次试验构成Bernoull
2、i试验序列 1.每次试验只有两个互斥的结果之一(A或非A) 2.每次试验的条件不变(即每次试验有P(A)= ) 3.各次试验独立,例4-1,例4-1 用针灸治疗头痛,假定结果不是有效就是无效,每一例有效的概率为。某医生用此法治疗头痛患者5例,3例有效的概率是多少?,本例为Bernoulli试验序列 ,5 次试验中,事件“有效”出现的次数X=3的概率分布为:,一、二项分布的概念与特征,例4-2,例4-2 临床上用针灸治疗某型头痛,有效的概率为60%,现以该法治疗3例,其中2例有效的概率为多大?,本例为Bernoulli试验序列 ,3 次试验中,事件“有效”出现的次数X=2的概率分布为:,治疗3例
3、可能的有效例数及其概率,二项分布图 (1),二项分布图 (2),二项分布的均数与方差,若XB(x, n, ),则,在例4-3中,n=3, =0.6,则3人中有效人数X的总体均数,样本率的误差估计频率的标准误,用样本率p估计总体率存在抽样误差,样本率p的总体均数和标准差为:,当n 较大时,对随机抽取的一个样本而言,95%的可能样本与总体率间的误差不超过1.96标准差,即:,实际工作中,,例4-4 已知某地钩虫感染率为6.7%(即=0.067),如果随机抽查该地150人,记样本钩虫感染率为p,求p的抽样误差。,二、 二项分布的统计应用,1.概率估计 例4-5 如果某地钩虫感染率为13%,随机抽查该
4、地150人,其中有10人感染钩虫的概率有多大?有11人感染的概率?,2.单侧累计概率,例4-6 在例4-5中,至多有2名感染钩虫的概率有多大?至少有2名感染的概率有多大?至少有20名感染的概率有多大?,第二节 Poisson分布的概念与特征,若某一随机变量X的取值为0,1,2,且X=k 的概率为:,其中 自然数e2.7182; 是大于0的常数,称X服从以 为参数的Poisson分布。,Poisson分布主要用于描述在单位时间(空间)内稀有事件的发生数。例如:放射性物质在单位时间内的放射次数、单位容积内充分摇匀的水中的细菌数、染色体异变数等。,一、Poisson分布概念与特征,记作 XP( ),
5、例如,某地20年间共出生肢短畸形儿10名,平均每年0.5名。分析每年出生畸形儿数的概率分布。 分析:出生畸形儿是个稀有事件,设x为每年出生畸形儿数,=0.5,每年出生肢短畸形儿概率分布,Poisson 分布图,Poisson分布的均数与方差都等于,因此参数的统计意义就是平均值。,三、Poisson分布的可加性,若X1,X2,Xk 相互独立,且分别服从以1, 2, k 为参数的Poisson分布,则X= X1+X2+Xk 服从 = 1+ 2+ k 的Poisson分布。,二、Poisson分布的均数与方差,四、二项分布的Poisson分布近似,若XB( n, ),当n很大且很小时,可取n ,理论
6、上可证明:,五、Poisson分布的应用,1. 概率估计 例4-7 如果某地新生儿先天性心脏病的发病率为8 ,那么该地120名新生儿中有4人患先天性心脏病的概率有多大?5人概率?设x为患病人数,xB(120, 8 ) , 取=n=1200.008=0.96,2. 单侧累计概率,例4-8 在例4-7中, (1)至多有4人发病的概率有多大? (2)至少有5人发病的概率有多大?,例4-9,实验室显示某100cm2的培养皿平均菌落数为6个,试估计该培养皿菌落数小于3个的概率和大于1个的概率。,( normal distribution ),第三节 正态分布,一、 正态分布的概念和特征,在医学资料中有许
7、多变量的频数分布具有对称性。如观察某地150名正常成人心率的规律。如表4-3:,表4-3 某地正常成人心率(次/分)的频率分布,心率频数分布,正态曲线,例4-10 某地1986年120名8岁男孩身高频数图,不同参数和下的正态分布曲线,正态分布函数,1.Gauss函数 (Gauss, 17771855 德国人),2.两个参数的意义几何意义: 是位置参数; 是形状参数( 0).统计意义: 是总体平均数; 是总体标准差.,记作 XN( , 2),实际应用中 XN( , s2 ),表4-4,不同范围的概率值, =121.95,3.正态曲线下面积(概率)的计算,不同范围的概率值,4. Z变换, +1有拐
8、点,有拐点,二、 标准正态分布,时的分布称为标准正态分布,standard normal distribution,标准正态分布界值表值,三、 正态分布的应用,1.估计频数分布 2.制定医学参考值范围 3.质量控制,1. 估计频数分布,例4-11-1 出生体重低于2500克为低体重。若由某项研究得某地婴儿体重均数为3200克,标准差为350克,估计该地当年低体重儿所占的比例。,解:设 X表示婴儿体重(克), 因为XN(3200,3502),例4-11 -2,某地1986年120名8岁男孩身高均数 , S=4.79 (1)试估计身高在130cm以上的百分比; (2)身高在120cm128cm的百
9、分比; (3)该地80%的男孩身高集中在哪个范围? 解:,2. 医学参考值范围,在正常人中,确定大多数人某项生理、生化、解剖等指标的波动范围(normal range)。,通常,双侧时,,单侧时,,例4-12 如调查某地120名健康女性血红蛋白,估计血红蛋白95%的医学参考值范围。已知:,则当地女性血红蛋白数的95%的医学参考值范围是:,正态近似法,百分位数法,例4-13 282名正常人尿汞值(g/L)测量结果,因此,该地正常人的尿汞值的95%医学参考值范围为43.6(g/L),医学参考值估计法表,成人血象指标医学参考值范围,参考值范围确定的原则,选定同质的正常人作为研究对象 控制检测误差 判
10、断是否分组 单、双侧问题 选择百分界值,选定同质的正常人作为研究对象,同质 正常 “足够数量” 例数过少,代表性差;例数过多增加成本,且易导致正常标准把握不严,影响数据的可靠性。一般认为每组100例以上 ;有人认为确定临床生化指标的正常值应取300500例。,控制检测误差,通过人员培训、控制检测条件、重复测定等措施,严格控制检测误差。,判断是否分组,组间差别是否有统计学意义并有临床意义? 例:红细胞、白细胞 各组的分布范围、高峰位置等是否基本一致?,单、双侧问题,过大或过小均属异常 :双侧界值 例:白细胞计数仅过大或过小为异常:单侧界值 例:肺活量仅过低异常 下限尿铅仅过高为异常 上限,确定可
11、疑范围,若病人与正常人的数据重叠较多的情况下,为避免较大的假阳性和假阴性错误率,可设定可疑范围。,图 正常人与病人的数据分布重叠示意图,3. 质量控制,判断异常点的8种情况: 1.某点位于控制线3S之外 2.在中心线的一侧连续有9个点 3.连续6个点稳定地减少或增加 4.连续14个点交替上下 5.连续3个点中有2个点位于2S之外 6.连续5个点中有4个点位于1S之外 7.在中心线一侧或两侧连续15个点位于1S之内 8.在中心线一侧或两侧连续8个点位于1S之外,4.二项分布、Poisson分布的正态近似,二项分布的正态近似当n较大, 不接近0也不接近1时,有:,其中 0.5 是连续性校正值。,例4-14,某地钩虫感染率为13%,如果随机抽查当地150人,问至少有20人感染钩虫的概率有多大?,Poisson分布的正态近似,当20时,理论上可证明:,例4-15,实验显示某放射性物质半小时内发出的脉冲数服从Poisson分布,平均为360个,试估计该物质半小时内能发出脉冲数大于400个概率。,