参数估计基础（nxpowerlite）课件

资源描述

《参数估计基础（nxpowerlite）课件》由会员分享，可在线阅读，更多相关《参数估计基础（nxpowerlite）课件（43页珍藏版）》请在金锄头文库上搜索。

1、2019/4/20,1,中山大学医学统计与流行病学系张晋昕 2008.09.23,第六章参数估计基础,第一节抽样分布与抽样误差,抽样研究的目的就是要用样本信息来推断相应总体的特征，这一过程称为统计推断。统计推断包括两方面的内容：参数估计和假设检验,抽样误差：样本统计量与总体参数之差；抽样误差也表现为样本统计量之间的不同。,1.系统误差：由于受试对象、研究者、仪器设备、研究方法、非实验因素影响等确定性原因造成，有一定倾向性或规律性的误差。可以避免。 2.随机误差：由于多种无法控制的偶然因素引起，对同一样品多次测量数据的不一致。无倾向性，不可避免。 3.抽样误差：产生的根本原因是个体变异、

2、产生的直接原因是抽样。,一、样本均数的抽样分布与抽样误差均数的抽样误差：由个体变异产生的、由于抽样而造成的样本均数与样本均数及样本均数与总体均数之间的差异称为均数的抽样误差。,抽样实验：,(a),样本均数的分布特点： 1. 各样本均数未必等于总体均数； 2. 样本均数之间存在差异； 3. 样本均数的分布很有规律，围绕着总体均数，中间多，两边少，左右基本对称，也服从正态分布。,2019/4/20,7,标准误的概念,用于表示均数抽样误差的指标叫样本均数的标准差，根据其实际意义，常称作样本均数的标准误（standard error）。,2019/4/20,8,实验5-2 图5-1（a）是一个正偏

3、峰的分布，用电脑从中随机抽取样本含量分别为5，10，30和50的样本各1000次，计算样本均数并绘制4个直方图。,(a) 原始数据,2019/4/20,9,(b)n=5 (c)n=10,(d) n=30 (e) n=50,其他总体,1）从正态总体N(,2)中，随机抽取例数为n的多个样本，样本均数服从正态分布；即使是从偏态总体中随机抽样，当n足够大时(如n30)，也近似正态分布。,数理统计推理和中心极限定理表明：,2）从均数为，标准差为的正态或偏态总体中抽取例数为n的样本，样本均数的标准差即标准误为。,表5-2(b) 100个样本均数的频数表与标准误的计算表,例5-1 2000年某研究所随

4、机调查某地健康成年男子27人，得到血红蛋白的均数为125g/L，标准差为15g/L 。试估计该样本均数的抽样误差。,二、样本频率的抽样分布与抽样误差,从同一总体中随机抽出观察单位相等的多个样本，样本率与总体率及各样本率之间都存在差异，这种差异是由于抽样引起的，称为频率的抽样误差。,表示频率的抽样误差大小的指标叫频率的标准误。,例5-2 某市随机调查了50岁以上的中老年妇女776人，其中患有骨质疏松症者322人，患病率为41.5%，试计算该样本频率的抽样误差。,2019/4/20,17,第二节 t 分布,一、t 分布的概念在统计应用中，可以把任何一个均数为，标准差为的正态分布N(,2)转变为

5、=0,=1的标准正态分布，即将正态变量值X用来代替。由于服从正态分布，故,服从标准正态分布N (0,1)。,实际资料的分析中，由于往往未知，故标准化转换演变为：,服从=n-1的t分布，即：,与单侧概率相对应的t值用表示，与双侧概率相对应的t值用表示。,由于t分布是以0为中心的对称分布，表中只列出了正值，故查表时，不管t值正负只用绝对值表示。,正确使用t界值表！,一、参数估计的概念统计推断包括参数估计和假设检验。参数估计就是用样本指标（统计量）来估计总体指标（参数）。,第三节总体均数及总体概率的估计,，即认为2000年该地所有健康成年男性血红蛋白量的总体均数为125g/L 。,

6、1.点估计：用样本统计量直接作为总体参数的估计值。例如于2000年测得某地27例健康成年男性血红蛋白量的样本均数为125g/L，试估计其总体均数。,同理，例5-2中776名50岁以上的中老年妇女骨质疏松症的样本患病率作为总体患病率的点值估计值，即认为该市所有50岁以上的中老年妇女骨质疏松症的总体患病率约为41.5%。,2. 区间估计：按预先给定的置信水平(1)估计总体参数的可能位置，该范围就称为总体参数的1置信区间(confidence interval CI)。预先给定的概率(1)称为置信度，常取95%或99%。如无特别说明，一般取双侧95%。,可信区间由两个数值即置信限（下限和上限

7、）构成。,2019/4/20,27,二、总体均数置信区间的计算,通式：（双侧）,（1）已知，按标准正态分布原理计算由z分布，标准正态曲线下有95%的z值在1.96之间。,95%的双侧置信区间： 99%的双侧置信区间：,通式：（双侧）,（2）未知但样本例数n足够大（n50）时由t分布可知，自由度越大，t分布越逼近标准正态分布，此时t曲线下约有95%的t值在1.96之间，即,95%的双侧置信区间： 99%的双侧置信区间：,例5-4 某市2000年随机测量了90名19岁健康男大学生的身高，其均数为172.2cm，标准差为4.5cm,，试估计该地19岁健康男大学生的身高的95%置信区间。,该市

8、19岁健康男大学生的身高的95%置信区间(171.3,173.1)cm,（3）未知且样本例数n 较小时，按t 分布原理，此时某自由度的t曲线下约有95%的t值在t0.05/2()之间，,通式:,95%的双侧置信区间： 99%的双侧置信区间：,t/2, 是按自由度=n-1，由附表2查得的t值。,例5-3 已知某地27例健康成年男性血红蛋白量的均数为，标准差S=15g/L ,试问该地健康成年男性血红蛋白量的95%和99%置信区间。本例n=27，S=15,95%CI：,99%CI：,2019/4/20,33,思考,每一个求出的置信区间，都有95%的可能性涵盖总体均数。,2019/4/20,3

9、4,置信区间的两个要素准确度：反映置信度1-的大小。精度：反映区间的宽度。在一定置信度下，增加样本例数，会减小 t, 和，可减小区间宽度，提高精度。,意义： 95%的参考值范围是指同质总体内包括95%个体值的估计范围。若总体为正态分布，常按计算。 95%的可信区间是指按95%的置信度估计的总体参数的所在范围。若为大样本，按计算。计算上：置信区间用标准误，参考值范围用标准差。,三、均数置信区间与参考值范围的区别,思考！,标准差与标准误的区别 1）概念不同：标准差是描述样本中个体值间的变异程度的指标，标准差越小，表示变量值围绕均数的波动越小。标准误是描述样本均数间变异程度的指标，标

10、准误越小，表示样本均数围绕总体均数的波动越小。,2) 用途不同：标准差常用于表示变量值对均数波动的大小，当资料呈正态分布时，与均数结合可估计正常值范围，计算变异系数等；标准误常用于表示样本统计量（样本均数，样本率）对总体参数（总体均数，总体率）的波动情况，可估计参数的可信区间，进行假设检验。,思考！,联系：二者均为变异指标，如果把总体中各样本均数看成一个变量，则标准误可称为样本均数的标准差。当样本含量不变时，均数的标准误与标准差成正比。两者均可与均数结合运用，但描述的内容各不相同。,3）与例数的关系不同：当样本含量足够大时，标准差趋向稳定。而标准误随例数的增大而减小，甚至趋向于0。若样

11、本含量趋向于总例数，则标准误接近于0。,总体概率的置信区间与样本含量n，阳性频率p的大小有关，可根据n和p的大小选择以下两种方法。 1. 正态近似法当样本含量足够大，且p和1-p不太小，则样本率的分布近似正态分布。公式为： p为样本率，为率的标准误的估计值，,四、总体概率的置信区间,例5-7 用某种仪器检查已确诊的乳腺癌患者94例，检出率为78.3%。估计该仪器乳腺癌总体检出率的95%置信区间。分析：本例样本例数较大，且样本率p不太小，可用正态近似法：,2. 查表法,当n较小，如n50，特别是p和1-p接近0或1时，应按照二项分布的原理估计总体率的可信区间。,例5-5 某医院对39名前列腺癌患者实施开放手术治疗，术后有合并症者2人，试估计该手术合并症发生概率的95%置信区间。,例5-6 某医生用某药物治疗31例脑血管梗塞患者，其中25例患者治疗有效，试求该药物治疗脑血管梗塞有效概率的95%置信区间。,注意：此表仅列出Xn/2 的95%置信区间。,2019/4/20,43,THANKS!,

展开阅读全文