卫生统计学：第五章参数估计基础

资源描述

《卫生统计学：第五章参数估计基础》由会员分享，可在线阅读，更多相关《卫生统计学：第五章参数估计基础（42页珍藏版）》请在金锄头文库上搜索。

1、第五第五章章参参数估计基础数估计基础案例案例欲了解某地正常男性血清胆固醇的平均水平，某欲了解某地正常男性血清胆固醇的平均水平，某研究者在该地随机抽取正常成年男性研究者在该地随机抽取正常成年男性120120名，得其血清胆名，得其血清胆固醇的均数为固醇的均数为3.86mmol/L3.86mmol/L，标准差为，标准差为1.73mmol/L1.73mmol/L，据此，据此认为该地正常成年男性血清胆固醇的平均水平为认为该地正常成年男性血清胆固醇的平均水平为3.86mmol/L3.86mmol/L。问题：问题：1.1.该资料为何种类型资料？该资料为何种类型资料？ 2.2.该研究属于何种设计方案？该研

2、究属于何种设计方案？ 3.3.以此次抽样得到的样本均数以此次抽样得到的样本均数3.86mmol/L3.86mmol/L来代表来代表该地区正常成年男性血清胆固醇的平均水平是否合适？该地区正常成年男性血清胆固醇的平均水平是否合适？为什么？为什么？抽样研究的目的就是要用样本信息来推断相应总体的特抽样研究的目的就是要用样本信息来推断相应总体的特征，这一过程称为征，这一过程称为统计推断统计推断。统计推断包括两方面：统计推断包括两方面：参数估计参数估计和和假设检验假设检验抽样误差：由抽样误差：由个体变异个体变异产生的、由于产生的、由于抽样抽样而造成的样而造成的样本统计量与样本统计量及样本统计量与总体

3、参数之间的差异本统计量与样本统计量及样本统计量与总体参数之间的差异称为称为抽样误差抽样误差。无倾向性，不可避免。无倾向性，不可避免。第一节第一节抽样分布与抽样误差抽样分布与抽样误差抽样误差：由抽样误差：由个体变异个体变异产生的、由于产生的、由于抽样抽样而造成的样而造成的样本统计量与样本统计量及样本统计量与总体参数之间的差异本统计量与样本统计量及样本统计量与总体参数之间的差异称为称为抽样误差抽样误差。无倾向性，不可避免。无倾向性，不可避免。一、样本均数的抽样分布与抽样误差一、样本均数的抽样分布与抽样误差例例假定某年某地所以假定某年某地所以1313岁女生的身高服从总体均数岁女生的身高服

4、从总体均数155.4cm155.4cm，总体标准差，总体标准差5.3cm5.3cm的正态分布。利用计算机在该总体的正态分布。利用计算机在该总体中作随机抽样，共抽中作随机抽样，共抽100100次。每次抽取次。每次抽取3030例组成一份样本，计算例组成一份样本，计算每份样本的平均身高，见下表。每份样本的平均身高，见下表。样本均数的分布特点：样本均数的分布特点： 1. 1.各样本均数未必等于总体均数；各样本均数未必等于总体均数； 2. 2.样本均数之间存在差异；样本均数之间存在差异； 3. 3.样本均数的分布很有规律，围绕着总体均数，中间多，样本均数的分布很有规律，围绕着总体均数，中间多，两边少，左

5、右基本对称，也服从正态分布。两边少，左右基本对称，也服从正态分布。 4. 4.样本均数的变异程度明显小于原个体变量之间的变异。样本均数的变异程度明显小于原个体变量之间的变异。样本均数的标准差称为均数的标准误，简称标准样本均数的标准差称为均数的标准误，简称标准误，用误，用表示。均数的标准误说明各样本均数围绕总表示。均数的标准误说明各样本均数围绕总体均数的离散程度，反映样本均数的抽样误差大小。体均数的离散程度，反映样本均数的抽样误差大小。标准误的意义：标准误的意义：1 1、标准差的特点均存在，只是表示均数的标准差。、标准差的特点均存在，只是表示均数的标准差。2 2、表示抽样误差大小。、表示抽样

6、误差大小。数理统计推理和中心极限定理表明：数理统计推理和中心极限定理表明： 1 1）从正态总体）从正态总体N(N(,2 2) )中，随机抽取例数为中，随机抽取例数为n n的多个样本，的多个样本，样本均数服从正态分布；即使是从偏态总体中随机抽样，当样本均数服从正态分布；即使是从偏态总体中随机抽样，当n n足够大时足够大时( (如如n n50)50)，也近似正态分布。也近似正态分布。2 2）从均数为）从均数为，标准差为，标准差为的正态或偏态总体中抽取例数为的正态或偏态总体中抽取例数为n n的样本，样本均数的标准差即标准误为的样本，样本均数的标准差即标准误为: :用用来表示均数抽来表示均数抽样

7、误差的大小。差的大小。（标准误的理论值）（标准误的理论值）（标准误的估计值）（标准误的估计值）标准误的大小与标准误的大小与的大小成正比，与的大小成正比，与n n成反比，而成反比，而为定值，为定值，说明可以通过增加样本例数来减少标准误，以降低抽样误差。说明可以通过增加样本例数来减少标准误，以降低抽样误差。未知，用样本标准差未知，用样本标准差S S来估计总体标准差来估计总体标准差。例例5-1 20005-1 2000年某研究所随机调查某地健康成年男子年某研究所随机调查某地健康成年男子2727人，得到血红蛋白的均数为人，得到血红蛋白的均数为125g/L125g/L，标准差为，标准差为15g/L 1

8、5g/L 。试估计。试估计该样本均数的抽样误差。该样本均数的抽样误差。均数的抽样分布：均数的抽样分布：1.样本均数服从正态分布：样本均数服从正态分布：2.样本均数服从标准正态分布：样本均数服从标准正态分布：（n较大）较大）3.样本均数服从样本均数服从t分布：详见后分布：详见后（n较小）较小）二二、样本频率的抽样分布与抽样误差、样本频率的抽样分布与抽样误差例例在一个口袋内装有形状、质量完全相同的黑球和白球，在一个口袋内装有形状、质量完全相同的黑球和白球，已知黑球的比例为已知黑球的比例为20%20%。从口袋中每摸一次看清颜色后放回去，。从口袋中每摸一次看清颜色后放回去，搅匀后再摸，重复摸球搅

9、匀后再摸，重复摸球5050次，计算摸到黑球的百分比。重复这次，计算摸到黑球的百分比。重复这样的实验样的实验100100次，每次得到黑球比例见下表。次，每次得到黑球比例见下表。（一）（一）样本频率样本频率的抽样误差：的抽样误差：从同一总体中随机抽出观察单位相等的多个样本，样从同一总体中随机抽出观察单位相等的多个样本，样本率与总体率及各样本率之间都存在差异，这种差异是由本率与总体率及各样本率之间都存在差异，这种差异是由于抽样引起的，称为频率的于抽样引起的，称为频率的抽样误差抽样误差抽样误差抽样误差。表示频率的抽样误差大小的指标叫表示频率的抽样误差大小的指标叫频率的标准误。频率的标准误。频率的标

10、准误。频率的标准误。用用用用表示。表示。表示。表示。：总体率，：总体率，n：样本例数。：样本例数。当当未知时，未知时，p （为样本含量足够大，且（为样本含量足够大，且p和和1-p不太小）不太小）公式为公式为: ：率的标准误的估计值，：率的标准误的估计值，p：样本率。：样本率。例例5-1 某市随机调查了某市随机调查了50岁以上的中老年妇女岁以上的中老年妇女776人，其中患有骨质疏松症者人，其中患有骨质疏松症者322人，患病率为人，患病率为41.5%，试，试计算该样本频率的抽样误差。计算该样本频率的抽样误差。（二）频率的抽样分布（二）频率的抽样分布从总体中随机抽取若干样本，计算出样本频

11、率，这些从总体中随机抽取若干样本，计算出样本频率，这些频率的分布即为频率的抽样分布。频率的分布即为频率的抽样分布。频率的抽样分布也有一定的规律。频率的抽样分布也有一定的规律。频率的抽样分布：频率的抽样分布： 1.样本频率服从正态分布：样本频率服从正态分布：n, n（1-）5时时2.样本频率服从二项分布：样本频率服从二项分布：n不太大，不太大，不接近不接近0或或1。3.样本频率服从泊松分布：样本频率服从泊松分布：n较大，较大，接近接近0或或1。第二节第二节 t t分布分布一、一、t分布的概念分布的概念服从服从=n-1的的t t分布分布分布分布二、二、t 分布的图形和分布的图形和t 分布表分

12、布表t分布曲线特点：分布曲线特点：1） t分布曲线是单峰分布，它以分布曲线是单峰分布，它以0为中心，左右对称。为中心，左右对称。2）t分布的形状与样本例数分布的形状与样本例数n有关。自由度越小，则有关。自由度越小，则越越大，大，t 值越分散，曲线的峰部越矮，尾部翘的越高。值越分散，曲线的峰部越矮，尾部翘的越高。3) 当当 n时，则时，则S逼近逼近，t分布逼近标准正态分布。分布逼近标准正态分布。 t分布不是一条曲线，而是一簇曲线。分布不是一条曲线，而是一簇曲线。与单侧概率相对应的与单侧概率相对应的t t值用值用表示，与双侧概率相表示，与双侧概率相对应的对应的t t值用值用表示。表示。由

13、于由于t t分布是以分布是以0 0为中心的对称分布，表中只列出了为中心的对称分布，表中只列出了正值，故查表时，不管正值，故查表时，不管t t值正负只用绝对值表示。值正负只用绝对值表示。第三节第三节总体均数及总体概率的估计总体均数及总体概率的估计一、参数估计的概念一、参数估计的概念二、总体均数的估计二、总体均数的估计三、总体概率的估计三、总体概率的估计一、参数估计的概念一、参数估计的概念统计推断包括参数估计和假设检验。参数估计就统计推断包括参数估计和假设检验。参数估计就是用样本指标（统计量）来估计总体指标（参数）。是用样本指标（统计量）来估计总体指标（参数）。参数估计参数估计点估计点估计(

14、point estimation)区间估计区间估计(interval estimation)一、参数估计的概念一、参数估计的概念二、总体均数的估计二、总体均数的估计三、总体概率的估计三、总体概率的估计二、总体均数的估计二、总体均数的估计 1.1.点估计：点估计：用样本统计量直接作为总体参数的估计值。用样本统计量直接作为总体参数的估计值。例如例如于于20002000年测得某地年测得某地2727例健康成年男性血红蛋白量的样本例健康成年男性血红蛋白量的样本均数为均数为125g/L125g/L，试估计其总体均数。，试估计其总体均数。，即认为即认为20002000年该地所有健康成年男性血红蛋白量

15、年该地所有健康成年男性血红蛋白量的总体均数为的总体均数为125125g/L 。2. 区间估计区间估计：按预先给定的概率：按预先给定的概率(1)估计总体均数的可能范估计总体均数的可能范围，该范围就称为围，该范围就称为总体均数的总体均数的总体均数的总体均数的1 1 置信区间置信区间置信区间置信区间(confidence (confidence interval CI)interval CI)。预先给定的概率预先给定的概率(1)称为称为置信度置信度置信度置信度，常取，常取95%或或99%。如。如无特别说明，一般取双侧无特别说明，一般取双侧95%。置信区间由两个数值即置信区间由两个数值即置信限置信

16、限置信限置信限构成，其中最小值称为下限，构成，其中最小值称为下限，最大值称为上限。严格讲，置信区间不包括上下限两个端点值。最大值称为上限。严格讲，置信区间不包括上下限两个端点值。3 3、置信区间的计算、置信区间的计算（1 1 1 1）已知，按标准正态分布原理计算已知，按标准正态分布原理计算已知，按标准正态分布原理计算已知，按标准正态分布原理计算通式：通式：（双侧）（双侧） Z Z/2/2为标准正态变量，为标准正态变量，Z Z/2/2相当于按相当于按=时及时及P P取取，由附，由附表表2 2查的的查的的t t界值。界值。 95%的双侧置信区间：的双侧置信区间：99%的双侧置信区间：的双侧置信区

17、间：（2 2 2 2）未知但样本例数未知但样本例数未知但样本例数未知但样本例数n n n n足够大（足够大（足够大（足够大（n n n n50505050）时）时）时）时通式：通式：（双侧）（双侧）95%的双侧置信区间：的双侧置信区间：99%的双侧置信区间：的双侧置信区间：例例5-4 5-4 某市某市20002000年随机测量了年随机测量了9090名名1919岁健康男大学生的身高，岁健康男大学生的身高，其均数为其均数为172.2cm172.2cm，标准差为，标准差为4.5cm,4.5cm,，试估计该地，试估计该地1919岁健康男岁健康男大学生的身高的大学生的身高的95%95%置信区间。置信

18、区间。该市该市1919岁健康男大学生的身高的岁健康男大学生的身高的95%95%置信区间置信区间(171.3,173.1)cm(171.3,173.1)cm（3 3 3 3）未知且样本例数未知且样本例数未知且样本例数未知且样本例数n n n n较小时，按较小时，按较小时，按较小时，按t t t t分布原理分布原理分布原理分布原理通式通式: :t t/2, /2, 是按自由度是按自由度=n-1=n-1，由附表，由附表2 2查得的查得的t t值。值。95%的双侧置信区间：的双侧置信区间：99%的双侧置信区间：的双侧置信区间：例例5-3 5-3 已知某地已知某地2727例健康成年男性血红蛋白量的均数

19、为例健康成年男性血红蛋白量的均数为，标准差，标准差S=15g/L ,S=15g/L ,试问该地健康成年男性血红蛋白量的试问该地健康成年男性血红蛋白量的95%95%和和99%99%置信区间。置信区间。本例本例n=27，S=1595%CI：99%CI： 4、置信区间的意义置信区间的意义从总体中进行随机抽样，由样本均数计算置信从总体中进行随机抽样，由样本均数计算置信区间，有区间，有1-的可能得到包含总体均数的置信区间。的可能得到包含总体均数的置信区间。所有样本计算的所有置信区间包含总体均数的置信区间不包含总体均数的置信区间1- 5、置信区间的两个要素置信区间的两个要素（1）准确度：反映置信

20、度）准确度：反映置信度1-的大小，即区间包含的大小，即区间包含总体均数的概率大小。总体均数的概率大小。（2）精度：反映区间的长度。）精度：反映区间的长度。在置信区间确定的情况下，增加样本例数，会减在置信区间确定的情况下，增加样本例数，会减小小 t, 和和，可减少区间长度，提高精度。，可减少区间长度，提高精度。一、参数估计的概念一、参数估计的概念二、总体均数的估计二、总体均数的估计三、总体概率的估计三、总体概率的估计（一）（一）点估计点估计例例5-25-2中中776776名名5050岁以上的中老年妇女骨质疏松症的样本患岁以上的中老年妇女骨质疏松症的样本患病率作为总体患病率的点值估计值

21、，即认为该市所有病率作为总体患病率的点值估计值，即认为该市所有5050岁以上岁以上的中老年妇女骨质疏松症的总体患病率约为的中老年妇女骨质疏松症的总体患病率约为41.5%41.5%。（二）（二）区间估计区间估计总体概率的置信区间与样本含量总体概率的置信区间与样本含量n，阳性频率，阳性频率p的大小有的大小有关，可根据关，可根据n和和p的大小选择以下两种方法。的大小选择以下两种方法。1. 1. 正态近似法正态近似法正态近似法正态近似法当当样样本本含含量量足足够够大大，且且p和和1-p不不太太小小即即np和和n(1-p) 均均5时，则样本率的分布近似正态分布。时，则样本率的分布近似正态分布。公

22、式为：公式为： P为样本率为样本率，为率的标准误的估计值。，为率的标准误的估计值。例例5-7 用某种仪器检查已确诊的乳腺癌患者用某种仪器检查已确诊的乳腺癌患者94例，检出率例，检出率为为78.3%。估计该仪器乳腺癌总体检出率的。估计该仪器乳腺癌总体检出率的95%置信区间。置信区间。分析：本例样本例数较大，且样本率分析：本例样本例数较大，且样本率p不太小，可用正态近似法：不太小，可用正态近似法： 2. 2. 查表法查表法查表法查表法（1）按二项分布原理：）按二项分布原理：p接近接近0或或1，n 较小较小时，以时，以n 及发生数及发生数 x 查附表查附表6。例例5-5 5-5 某医院对某医

23、院对3939名前列腺癌患者实施开放手术治疗，术名前列腺癌患者实施开放手术治疗，术后有合并症者后有合并症者2 2人，试估计该手术合并症发生概率的人，试估计该手术合并症发生概率的95%95%置信区置信区间。间。注意注意注意注意：此表仅列出：此表仅列出Xn/2 Xn/2 的的95%95%置信区间。置信区间。例例5-6 5-6 某医生用某药物治疗某医生用某药物治疗3131例脑血管梗塞患者，其中例脑血管梗塞患者，其中2525例患者治疗有效，试求该药物治疗脑血管梗塞有效概率的例患者治疗有效，试求该药物治疗脑血管梗塞有效概率的95%95%置信区间。置信区间。（2）按泊松分布原理：）按泊松分布原理：p接近接近0，n 较大时，以发生数较大时，以发生数 x 查附表查附表7。例：某地抽取例：某地抽取10万人，调查得乳腺癌死亡人数万人，调查得乳腺癌死亡人数为为23人，估计该地乳腺癌死亡率人，估计该地乳腺癌死亡率 95%的置的置信区间。信区间。以以x=23查附表查附表7得：（得：（14.6-34.4）/10万万

展开阅读全文

卫生统计学：第五章 参数估计基础

最新文档

卫生统计学：第五章参数估计基础