医学统计学教学课件》第四章参数估计基础研究生

资源描述

《医学统计学教学课件》第四章参数估计基础研究生》由会员分享，可在线阅读，更多相关《医学统计学教学课件》第四章参数估计基础研究生（54页珍藏版）》请在金锄头文库上搜索。

1、1 1 第四章第四章参数估计参数估计第一节第一节抽样分布与标准误抽样分布与标准误第二节第二节 t t分布分布第三节第三节总体参数估计总体参数估计2 2统统计计推推断断用样本信息推断总体特征，称统计推断用样本信息推断总体特征，称统计推断 (statistical inference)统计推断包括总体参数估计和假设检验统计推断包括总体参数估计和假设检验总体指标和样本的统计指标是有误差的，称总体指标和样本的统计指标是有误差的，称为抽样误差为抽样误差3 3 第四章第四章参数估计参数估计第一节第一节抽样分布与标准误抽样分布与标准误第二节第二节 t t分布分布第三节第三节总体参数估计

2、总体参数估计4 4一、样本均数的抽样误差已知某地高三男生的平均身高为 ,标准差为 ,将其视为一个总体。从该总体中随机抽样样本含量为n每次抽取10000个样本并计算各自的样本均数以10000个样本均数作为一个新的样本制作频数图5 5抽样1样本含量n=4 的平均数 =168.19 的标准差 =2.9670 6 6抽样2样本含量 n=16 的平均数 =168.158 的标准差 =1.4884 7 7抽样3样本含量 n=36 的平均数=168.1493 的标准差 =0.9997 8 8从正态分布的总体中随机抽取样本含量为n的样本X1，X2，Xn，其样本均数服从正态分布，总体均数为；样本均数的总体

3、标准差正态总体样本均数的分布9 9样本均数的标准差，称为样本均数的标准误(standard error of mean ,SE)，简称均数标准误它反映样本均数之间的离散程度，也反映样本均数抽样误差的大小。由于实际往往未知，需要用样本来估计，样本均数标准误的估计式为标准误1010非正态总体样本均数的分布从总体均数为1的指数分布中抽样，样本大小分别为4，9，100。每次抽10000个样本制作频数分布图1111抽样1样本含量n=4 的平均数 =1.0133 的标准差 =0.5031 的中位数 =0.92981212抽样2样本含量n=9 的平均=0.9959 的标准差=0.3332 的中位数=

4、0.95741313抽样3样本含量n=100 的平均=0.9993 的标准=0.1001 的中位=0.99581414从非正态指数分布总体中随机抽样所得样本均数：在样本含量较小时呈偏态（非指数型）样本含量较大时接近正态分布均数始终在总体均数附近均数的标准差非正态总体样本均数的分布1515从正态总体从正态总体N N（， 2 2 ）中，随机抽取例数）中，随机抽取例数为为n n的样本，的样本，样本均数样本均数也服从正态分布也服从正态分布；即；即使是从偏态总体抽样，当使是从偏态总体抽样，当n n足够大时，足够大时，也近似也近似正态分布。正态分布。从均数为从均数为，标准差为，标准差为的

5、正态或偏态总体，的正态或偏态总体，抽取例数为抽取例数为n n的样本，的样本，样本均数样本均数的总体均数的总体均数也为也为，标准差用，标准差用中心极限定理1616随机抽样试验，分别在总体率=0.4，0.5，0.01的总体中随机抽样，其总体率和样本含量n每种情况分别随机抽10000个样本，每个样本计算其样本率，把同一种情况的10000个样本率视为一个新的样本资料作频数图二、样本频率的抽样误差 1717抽样11818抽样21919抽样32020抽样42121结果总体率相同时，样本含量越大，样本率的分布越趋向对称。样本含量n相同时，越偏离0.5，样本率的分布越偏态分布。总体率0.5时，任意样本含

6、量的样本率都呈对称分布。样本率p的样本标准差。样本率的分布 2222中心极限定理及其推论当n40， p的抽样分布接近正态分布总体均数等于总体率总体标准差(即率的标准误) 由于总体率通常是未知的，因而用样本率p来估计，故率的标准误的估计值常表示为 2323 第四章第四章参数估计参数估计第一节第一节抽样分布与标准误抽样分布与标准误第二节第二节 t t分布分布第三节第三节总体参数估计总体参数估计2424某一变量某一变量X X服从服从N N（ ,2 2），），则服从标准正态分布则服从标准正态分布N N（0 0，1 1） t分布2525变量变量服从服从 N N ( ( , , ) )，则，

7、则服从标准正态分布服从标准正态分布N N（0 0，1 1）。）。 t t分布的概念分布的概念2626实际工作中，实际工作中，常常未知，而用常常未知，而用代替代替，这时这时不再服从不再服从u分布，而服从分布，而服从t分布。分布。，v = n1 t 分布最早由英国统计学家分布最早由英国统计学家 W. S. Gosset 于于1908年以年以 Student 笔名发表，又称笔名发表，又称Student t分布。分布。 2727t分布的图形和特征分布的图形和特征2828 t t 分布是一簇曲线，它与样本例分布是一簇曲线，它与样本例数数 n n 或自由度或自由度有关，某个自由度有关，某个自由

8、度对应于一条对应于一条 t t 分布曲线。当分布曲线。当 n n 或或不同时，曲线形状不同。当不同时，曲线形状不同。当时，时，t t 分布趋近于标准正态分布。分布趋近于标准正态分布。2929 n n 或或越小，则越小，则越大，越大，t t 越分散。越分散。t t 分布的峰部越矮，而尾部翘得越高分布的峰部越矮，而尾部翘得越高( (t t 值较小值较小且分散且分散) )。 t t 和和 u u 分布：二者都是单峰分布，以分布：二者都是单峰分布，以 0 0 为中心，左右对称。为中心，左右对称。 n n或或，，t t 分布分布 u u 分布，故分布，故 u u 分布是分布是 t t 分布的

9、特例。分布的特例。3030 t 界值表界值表横标目：自由度横标目：自由度纵标目：概率纵标目：概率 P P ( (曲线下面积曲线下面积) )，一侧尾部面积称为单，一侧尾部面积称为单侧概率，两侧尾部面积之和称为双侧概率。侧概率，两侧尾部面积之和称为双侧概率。表中数字：自由度为表中数字：自由度为，概率概率P P 为为时，所对应的时，所对应的 t t 界值，记为界值，记为t t,。插图：阴影部分表示插图：阴影部分表示t t,以外尾部面积占总面积的百以外尾部面积占总面积的百分数，即概率分数，即概率 P P（从总体中随机抽样获得等于或超过（从总体中随机抽样获得等于或超过t, 的概率）的概率）。t t

10、分布是以分布是以 0 0 为中心的对称分布，表中只列出正值。为中心的对称分布，表中只列出正值。3131例：由表查出单侧例：由表查出单侧t t0.05,200.05,20表示从总体作样本例数表示从总体作样本例数 n n 为为2121的随机抽样，的随机抽样，其其 t t 值服从自由度为值服从自由度为 20 20 的的 t t 分布，在分布，在理论上，理论上， P P ( ( t t 1.725) = 0.05 1.725) = 0.05 或或 P P ( ( t t 1.725 ) = 0.05 1.725 ) = 0.05单侧单侧 t0.05,20=1.7253232例：由表查出双侧例：由表查

11、出双侧t t0.05,200.05,20表示从总体作样本例数表示从总体作样本例数 n n 为为2121的随机抽样，的随机抽样，其其 t t 值服从自由度为值服从自由度为 20 20 的的 t t 分布，在理分布，在理论上，论上， P (t 2.086) P ( t 2.086 ) = 0.05双侧双侧 t0.05,202.086即即P（2.086 t 2.086）10.050.953333单侧：单侧： P P ( ( t t ) = ) =或或 P P ( ( t t ) = ) = 双侧双侧: : P P ( ( t t ) + ) + P P ( ( t t ) = ) = 即：即：P P

12、 ( ( t t ) = 1 ) = 1 3434由图中还可以看出：由图中还可以看出：在相同自由度时，在相同自由度时，t 绝对值越大，绝对值越大，P 越小。越小。在相同在相同 t 值时，双侧概率值时，双侧概率 P 为单侧为单侧概率概率 P 的两倍，的两倍，如：双侧如：双侧 = 单侧单侧 = 1.725。3535 第四章第四章参数估计参数估计第一节第一节抽样分布与标准误抽样分布与标准误第二节第二节 t t分布分布第三节第三节总体参数估计总体参数估计3636 用样本指标（统计量，用样本指标（统计量，statisticstatistic）来）来估计总体指标（参数，估计总体指标（参数，p

13、arameterparameter）。）。参数估计：参数估计：点估计（点估计（point estimationpoint estimation）区间估计（区间估计（interval estimationinterval estimation）参数估计参数估计37373.1 点估计：就是用样本统计量直接作点估计：就是用样本统计量直接作为总体参数的估计值。为总体参数的估计值。例：从某地随机抽取了例：从某地随机抽取了1岁婴儿岁婴儿25人，测得其人，测得其血红蛋白均数为血红蛋白均数为123.7g/L，标准差为，标准差为11.9g/L。试估计该地试估计该地1岁婴儿血红蛋白的平均浓度。岁婴儿血红蛋白的平均

14、浓度。本例：本例： ,若用点值估计，则该若用点值估计，则该地地1岁婴儿血红蛋白浓度的总体均数岁婴儿血红蛋白浓度的总体均数为为123.7g/L。3838某研究组随机调查了某市某研究组随机调查了某市50岁以上中岁以上中老年妇女老年妇女776人，其中患有骨质疏松症人，其中患有骨质疏松症者者322人，试估计该市人，试估计该市50岁以上中老年岁以上中老年妇女骨质疏松症的患病率。妇女骨质疏松症的患病率。本例：本例：p=322/776= 41.5%,若用点值估计，若用点值估计，则该市则该市50岁以上中老年妇女骨质疏松症的岁以上中老年妇女骨质疏松症的患病率为患病率为41.5。39393.2 3.2 区间估计

15、：按预先给定的概率区间估计：按预先给定的概率(1)确确定的包含未知总体参数的可能范围。定的包含未知总体参数的可能范围。该范围通常称为参数的该范围通常称为参数的可信区间可信区间或置信区间或置信区间（CI）。）。预先给定的概率（预先给定的概率（1）称为）称为可信度可信度或置信度，或置信度，常取常取95或或99。若无特别说明，一般取。若无特别说明，一般取双侧双侧95。4040总体均数可信区间的计算总体均数可信区间的计算根据根据是否已知，以及是否已知，以及 n 的大小，可分别的大小，可分别用用 t 分布和分布和 u 分布计算。分布计算。4141 未知，按未知，按 t 分布原理分布原理 P ( t 1

16、00)，用，用 u 分分布原理计算。双侧可信区间为：布原理计算。双侧可信区间为：未知但未知但 n 大：大：用用是准确的，用是准确的，用 S 是近似的。是近似的。u 为标准正态变量，为标准正态变量，u0.05 相当于按相当于按 =，P 取取，查查 t 界值表所得的界值表所得的 t 界界值。值。95%可信区间：可信区间： z0.05 = 1.9699%可信区间：可信区间： z0.01 = 2.58 已知：已知：4545例：某地抽得正常成人例：某地抽得正常成人200名，测得其血名，测得其血清胆固醇的均数为清胆固醇的均数为3.64mmol/L，标准差为，标准差为1.20mmol/L，试估计该地正常

17、成人血清胆，试估计该地正常成人血清胆固醇均数的固醇均数的95可信区间。可信区间。本例本例n200，取，取0.050.05（双侧），（双侧），，按公式计算：，按公式计算：4646总体概率可信区间的计算总体概率可信区间的计算1、正态近似法、正态近似法当当n足够大，且足够大，且np和和n（1-p）均大于）均大于5时，时，p的分布接近正态分布。可用公式的分布接近正态分布。可用公式求总体率的可信区间：求总体率的可信区间：4747例例为了了解某药物的疗效，对为了了解某药物的疗效，对100名患名患者治疗的结果进行调查，结果者治疗的结果进行调查，结果80人有效，人有效，有效率为有效率为80%。请估计该药物

18、的疗效。请估计该药物的疗效。48482、查表法、查表法当样本含量较小时，比如当样本含量较小时，比如n50，特别是，特别是当当p非常接近非常接近0或或100%时，需查附表时，需查附表6，得到总体率的可信区间。得到总体率的可信区间。4949例例某眼科医生在某校抽查某眼科医生在某校抽查6年级学生年级学生30名，其中患近视眼的学生名，其中患近视眼的学生12名。求名。求该校该校6年级学生患近视眼率的年级学生患近视眼率的95%可信可信区间。区间。查附表，在拿查附表，在拿0，x=12的纵横交叉处可的纵横交叉处可得到得到95%可信区间值为可信区间值为23%59%。注意：附表中的想值只列出了注意：附表中的想值

19、只列出了xn/2部部分，当分，当xn/2时，应以时，应以n-X值查表，然值查表，然后用后用100减去查得的数值，即为所求的减去查得的数值，即为所求的区间。区间。5050总体均数总体均数95%可信区间的含义：可信区间的含义：如果从同一总体中重复抽取如果从同一总体中重复抽取100份样份样本含量相同的独立样本，没份样本分别本含量相同的独立样本，没份样本分别计算计算1个可信区间，在个可信区间，在100个可信区间中，个可信区间中，将大约有将大约有95个可信区间覆盖总体均数个可信区间覆盖总体均数。5151可信区间的两个要素：可信区间的两个要素： 1. 准确度：反映在可信度准确度：反映在可信度1 的大小

20、上，即区间包的大小上，即区间包含总体均数的概率大小。概率越大越好。含总体均数的概率大小。概率越大越好。 2. 精度：反映在区间的长度上。长度越小越好。精度：反映在区间的长度上。长度越小越好。在在 n 确定的情况下，二者是矛盾的。确定的情况下，二者是矛盾的。如提高可信度如提高可信度 (, ) ，则区间变长。在可信，则区间变长。在可信度确定的情况下，增加样本例数（可减小度确定的情况下，增加样本例数（可减小和和）减小区间长度，提高精度。减小区间长度，提高精度。5252可信区间与参考值范围的区别可信区间与参考值范围的区别1. 意义不同：意义不同：可信区间：按预先给定的概率所确定的可信区间：

21、按预先给定的概率所确定的总体参数的可能范围。总体参数的可能范围。参考值范围：指同质总体内包括百分之参考值范围：指同质总体内包括百分之多少个体值的估计范围。常用于多少个体值的估计范围。常用于“正常人正常人”的解剖、生理、生化指标等个体值的波动范的解剖、生理、生化指标等个体值的波动范围。围。53532. 应用不同：应用不同：可信区间：估计总体参数可信区间：估计总体参数参考值范围：判断观察对象的某项指标参考值范围：判断观察对象的某项指标是否正常。是否正常。54543.计算公式不同计算公式不同可信区间：可信区间：未知：未知：未知但未知但 n 足够大：足够大：已知：已知：参考值范围：参考值范围：正态分布：正态分布：偏态分布：偏态分布：

展开阅读全文

医学统计学教学课件》第四章参数估计基础研究生

最新文档