生物统计学课件抽样分布及应用㈡教学提纲

资源描述

《生物统计学课件抽样分布及应用㈡教学提纲》由会员分享，可在线阅读，更多相关《生物统计学课件抽样分布及应用㈡教学提纲（22页珍藏版）》请在金锄头文库上搜索。

1、第三章抽样分布及其应用,第一节二项总体抽样第二节检验二项资料的百分数（针对单个样本百分数和两样本百分数）第三节参数的区间估计第四节 2的定义和分布第五节次数资料的2检验,第三章要点提示,抽样分布及其应用是上一章抽样分布及其应用的延伸，两者构成统计分析方法的基础部分，学习时：对于二项总体抽样，要清楚它和上一章单个母总体抽样的联系和区别；对于百分数的检验，要注意应用u-test的条件、不符合这些条件时进行连续性矫正的必要性以及标准误的计算方法衍生总体参数的异同点；参数的区间估计可替代显著性检验，但它比显著性检验挖掘的信息更充分；掌握依据2变量SS/2 服从的理论分布进行适

2、合性检验和独立性检验时计算2值的方法。涉及教材内容：第五章第四、五节，第七章第一、二、三节。作业布置：教材P77 T13、 T14； P154-155 T5、 T7、 T8、 T10。,第一节二项总体抽样,一、二项总体参数本节是针对一类特殊的母总体进行抽样研究，这类总体内的个体不管有多少个，都可按某种性状出现与否分为两组，故称二项总体。将其中出现某种性状的个体的观察值定为“1”，否则定为“0”。若已知二项总体的个体有N个，出现某种性状的概率为p，则其参数计算如下： =fy /N = Np/N = p 2 = f ( y )2/N = Np(1- p) /N = pq 可见二

3、项总体的两个参数 ,2 都由平均数p (即个体出现某种性状的概率) 唯一确定。,二、衍生总体参数从二项总体中以样本容量 n 进行复置抽样，根据前述中心极限定理的有关结论，同样有：或 N( ，2)且： = = p， 2 = =2 /n = pq/n y或 N(y ，2y )且： y = n= np, 2y = = n2 = npq，于是: u = ( ) / = u = (y y ) /y =,第二节检验二项资料的百分数,所谓二项资料的百分数，指数据资料可以看成是从二项总体中抽得样本后，通过计数某一属性的个体数目算出来的样本百分数，其实质是样本平均数。正因为经计数获得，所以是

4、间断性变量。从理论上讲，这类百分数的显著性检验应按二项分布进行，即用( p + q ) n 的二项展开式求出某项属性的个体数达到某个百分数的概率。但 n 稍大时，直接用( p + q ) n 来计算区间概率很不方便，除非制成类似专用的统计表来查。而样本容量足够大 (n50) 时，若 p、 q 不过于小 (np或nq5), 则( p + q ) n 的分布趋近于正态, 可转换为 u 查算概率。,适合 u-test 的和值表,第二节检验二项资料的百分数,一、单个样本百分数例3.2 根据往年调查，某地区的乳牛隐性乳房炎一般为30%，即po= 0.3，现对某牛场500头

5、乳牛进行检测，结果有175头乳牛凝集反应阳性。问该牛场的隐性乳房炎是否比往年严重？解本例n = 500， = 175/500 = 0.35 n200, (0.2, 0.8 ) 用u-test H0：p p0 或 p 0.30 =(0.30.7500) =0.0205 u = ( p)/ = (0.350.30) / 0.0205 = 2.439 查表知单侧u0.05 = 双侧u0.10 = 1. 64 推断：u u0.05 故H0不成立。,若以 -np = 175-150= 25 ，进行测验, =10.25 , u 不变。若以H0：p = 0.7 进行检验，或结果也一样，u =

6、 2.439。本例有一般百分数为测验依据，具备计算总体标准误的先决条件，所以用u-test。这是很少见的几种能直接应用标准正态分布的场合，也是应用二项总体抽样分布进行检验的优势。用正态分布替代二项分布做检验，其本质是将间断性变量的概率分布去逼近它的极限连续性变量的fN(y)。这种近似过程会有偏差，当数据不符合前表所列条件时还得照下例操作。,第二节检验二项资料的百分数,例3.3 用基因型纯合的糯和非糯玉米杂交，按遗传规律 ,预期F1植株上糯性花粉粒的P0 = 0.5。现于一视野中检视20粒花粉，发现糯性花粉8粒, 试测验此次镜检结果是否符合F1代配子11的分离规律。

7、解本例n = 2050， = 8/20 = 0.4 不符合u-test的条件, 只能用t-test H0：p = p0 或p = 0.5 是2= pq的无偏估计值 =(0.40.619)=0.1124 tc= ( | p | 0.5/n ) / = 0.667 = ( 0.10.025 ) / 0.1124 按自由度= 19 查得t0.05 = 2.093 推断：t t0.05 故H0成立,本例若以 -np = 810 = -2进行测验, 则同样应根据2= pq的无偏估计值先计算标准误: = (202 0.40.619) = 2.25 再算tc= ( | n p | 0.5 ) /

8、= (20.5 ) / 2.25 = 0.667 计算 tc 的做法叫连续性矫正，为的是纠正用连续性变量的t 分布替代二项分布时, 因为 n 太小而不能忽略的偏差。即使如此，对这种 n50的资料进行检验只适宜于希望 H0 被接受的场合；如果希望H0被拒绝, 设计获得样本百分数的 n 还是越大越好，达不到100也不要少于50。,第二节检验二项资料的百分数,二、两个样本百分数例3.4 某养猪场第一年饲养杜长大商品仔猪9800头，死亡980头；第二年饲养10000 头，死亡950头，试检验第二年的死亡率与第一年的死亡率有无显著差异？解 = 0.1， = 0.095，可进行u-

9、test 不需连续性矫正， n1 与 n2 有 10000之多。（1）H0: p1 p2 (同时有: ) （2） = ( n1 +n2 ) / (n1+n2 )= 0.0975 = ( 980+950 ) / (9800+10000 ) =1 - = 1 0.0975 = 0.9025 = (Se2(1/n1+1/n2 )= 0.00422 = ( (1/9800+1/10000 ) t = ( ) (p1 p2 ) / = (0.10 0.095 ) / 0.00422= 1.185 （3）查得双侧t0.05 ，= u0.05 = 1.96 （4）推断t t0.05 H0成立。,本例计算标

10、准误的前提是可以合并两个样本百分数，然后计算Se2 = 之所以这样作而不象前例计算Se2 = (1S12 +2S22) / (1+2) 前先插入F 检验且知两个样本方差比无显著性，是因为该题型的H0有双重作用，即作出H0: p1 p2后，H0 : 也同真，原因在于二项总体的2 = p q = p(1-p)。至于n1 或 n2 50的两个样本百分数差异显著性检验问题，即使是有 t- test并且可以进行连续性矫正, 同样因为只有利于接受H0而不利于拒绝H0, 实际应用中不受推崇。,第三节参数的区间估计,什么叫区间估计？即使是复置抽样，由于抽样误差存在的必然性，不同的样本将有

11、不同的值，于是, 在一定的置信度(也叫置信系数或可靠度，一般为 95或99）保证之下，估计出一个范围或区间以覆盖参数。该区间就叫置信区间, 其上下限叫置信限，分别以 L2、L1表示。,如例1.5的n = 25抽样实例： = 44.05 g，S = 4.523g，以 1-=0.95时的t0.05=2.064算得： L1 44.052.0644.523 42.18 g L2 44.052.0644.523 45.92 g 若用=4.65g的已知条件，则： L1 44.051.964.65 42.23g L2 44.051.964.65 45.87 g,第三节参数的区间估计,如例2.3已

12、知某品种母猪的怀孕期为0 = 114d，现抽查其10头母猪得怀孕期平均日数 = 114.5d，S = 1.581d。以1-=0.95和S = = 0.5d 以及 t0.05=2.262 时算得： L1 114.52.2620.5113.37 g L2 114.52.2620.5115.63g 该区间估计结果也可用于显著性检验，如本例所示，H0: = 114d被包含在1-= 0.95的置信区间：113.37，115.63,故H0成立。反之，则H0不能成立。,若1-=0.99, t0.05=3.250, 可算得置信区间扩大为： 112.88，116.13。此时, H0: =114d成

13、立与否无从判断。再若取单侧 t0.05 = 1.833: L1 114.51.8330.5 113.58 g L2 114.51.8330.5 115.42g 此时, H0: 114d已包含在1-= 0.95的置信区间 113.58，115.42 故H0成立。,第三节参数的区间估计,又如例2.6 的资料，某小麦品种每m2产量的2= 0.4(kg2 )。A 法取12个样点，得每m2产量1= 1.2kg；B法取8个样点, 得2 = 1.4 kg。以1-=0.95 和1-2=0.2887 kg = 以及u0.05=1.96 时算得： L1 ( 1.2-1.4)1.960.2887 0.76

14、6 kg L2 (1.2-1.4)1.960.2887 0.366 kg 该区间估计结果用于显著性检验，如本例所示,H0: 1-2 = 0被包含在1-= 0.95的置信区间： -0.7661-20.366, 故H0成立。,反之，若H0未被包含在1-= 0.95的置信区间内，则属于H0不能成立的情形。于是, 就1 = 2 = 的情形将两个样本合并按单个样本进行区间估计，结果如下： 1.28kg 0.1414g L1 1.281.960.1414 1.00 kg L2 1.281.960.1414 1.56kg 由此可见，用于显著性检验的区间估计和参数的区间估计不完全是一回事！,第

15、三节参数的区间估计,又如例2.9某家禽研究所用粤黄鸡对A、B 两种饲料的增重效果进行对比试验，时间60d, 各获得8只鸡的观察值,算得 1=705.625g，SS1 = 2022g2； 2= 696.125g，SS2= 967g2。以1-=0.95 和S 1-2 = =7.306g 以及t0.05=2.145时算得： L1 (705.625-696.125)2.1457.306 6.17g L2 (705.625-696.125)2.1457.306 25.17g 该区间估计结果用于显著性检验时，由于H0: 1-2 = 0被包含在置信区间：6.171-2 25.17 故H0成立。,于是, 就1 = 2 = 的情形将两个样本合并按单个样本进行区间估计，结果如下： 700.875g S 3.653g L1 700.8752.1313.653 693.09g L2 700.8752.1313.653 708.66g 以上两例表明当用于显著性检验的区间估计针对1- 2 而又接受 H0时，有必要进一步作参数的区间估计以挖掘更加有用的信息！,第三节参数的区间估计,再如例2.8 在抽穗期间测定喷矮壮素玉米8株

展开阅读全文