总体均数与总体率的估计

资源描述

《总体均数与总体率的估计》由会员分享，可在线阅读，更多相关《总体均数与总体率的估计（87页珍藏版）》请在金锄头文库上搜索。

1、Chapter 6总体均数与总体率的估计随机抽样总体样本统计推断【例6-1】欲了解某地正常成年男性血清胆固醇的平均水平，某研究者在该地随机抽取正常成年男性120名，得其血清胆固醇的均数为3.86mmol/L，标准差为1.73 mmol/L，据此认为该地正常成年男性血清胆固醇的平均水平为3.86 mmol/L。以样本均数3.86mmol/L来代表该地区正常成年男性血清胆固醇的平均水平是否合适，为什么？第一节抽样误差与标准误【例6-2】假设已知某地正常成年男性红细胞数的均值为5.001012/L，标准差为0.431012/L。现从该总体中进行随机抽样，每次抽取10名正常成年男子，并测得他们的红细

2、胞数，抽取100份样本，计算出每份样本的均数。每个样本均数是否都恰好等于总体均数，各样本均数是否相等？均数的抽样误差(sampling error) 抽样误差:由于个体变异的存在，在抽样研究中产生的样本统计量和总体参数之间的差异各种参数都有抽样误差，这里我们以均数为研究对象原因：个体变异抽样表现：样本均数和总体均数间的差别、样本均数和样本均数间的差别抽样误差是不可避免的，但抽样误差有自己的规律样本均数的分布和标准误当固定样本含量n从同一总体中随机抽取多个样本时，样本均数间存在差异，那么这些样本均数的分布是怎样的呢？能否用某个指标来描述它们之间的变异？图6-1 100个样本均数的频数

3、分布图样本统计量的标准差称为标准误(standard error) 样本均数的标准差称为均数的标准误(SEM),用表示说明样本均数围绕总体均数的离散程度，可用来反映样本均数的抽样误差大小中心极限定理从正态总体 N (, 2) 中，随机抽取例数为 n 的样本，样本均数也服从正态分布；即使从偏态总体随机抽样，当 n 足够大时(n 50)，样本均数近似正态分布从均数为，标准差为的正态或偏态总体中，抽取例数为 n 的样本，样本均数的总体均数也为，标准差与原标准差成正比，与样本例数的平方根成反比常未知，用 s 估计，因此均数标准误的估计值为实际应用中，若标准差固定不变，可通过增加样本含

4、量n来减少抽样误差4.标准误的计算【例】随机抽取某市200名7岁男童的身高均数为124.0cm，标准差为4.6cm，估计抽样误差的大小意义不同：标准差：表示观测值的变异程度标准误：反映抽样误差的大小用途不同：标准差：确定医学参考值范围标准误：用于统计推断（参数估计、假设检验）公式不同：标准差与标准误的区别第二节 t 分布t 分布的演化常未知，若用，这时对样本均数进行的不是 z 变换而是 t 变换统计量 t 不再服从N(0,1)标准正态分布英国统计学家 William Sealey Gosset 于1908年以 “Student” 笔名发表论文，证明统计量 t 服从v = n-1的

5、t分布又称为Student t分布 (Students t-distribution)t 分布的图形及特征t 分布的特征为：以0为中心，左右对称的单峰分布越小，t值越分散，峰越矮，尾越高增大，t分布逐渐逼近z分布，时，t分布即为z分布t 界值表横标目：自由度纵标目：概率 P (曲线下面积) 表中数字：自由度为，概率P 为时，所对应的 t 界值，记为t, 单侧：或双侧：即在相同自由度时，t 的绝对值越大，P 越小在相同 P 值时，自由度越大所对应的 t 界值越小在相同 t 值时，双侧概率 P 为单侧概率 P 的两倍时，t界值即为z界值第三节总体均数的估计统计推断(s

6、tatistical inference) 统计推断是指如何抽样，以及如何用样本性质推断总体特征参数估计(parameter estimation) 假设检验(hypothesis testing)参数估计点估计（Point Estimation)To use a number to estimate the parameter. 区间估计(Interval Estimation)To obtain a range so as to include the parameter. 点估计的缺陷区间估计的实质假设某个总体的均数为，需要找到两个量A和B，使得在一个比较较高的可信度下 (如95

7、%)，区间间(A,B)能包含。即P(A50)例6-3中，因n=120 ，，试求该地正常成年男性血清胆固醇平均水平的95可信区间。即（3.55，4.17）mmol/L 3. 当未知n 较小-t/2, v 0 t/2, v 单侧可信区间和双侧可信区间应用条件双侧100(1-)% 可信区间上侧100(1-)% 可信区间下侧100(1-)% 可信区间已知未知，n足够大未知，n较小单侧可信区间的计算例随机抽取罐装牛肉10听，亚硝酸盐含量均数为17.6mg/kg，标准差1.64mg/kg，估计这批罐头的平均亚硝酸盐含量单侧可信区间！（仅有上限有意义，不高于某一个数值）上限为故95%CI为低

8、于18.55mg/kg可信区间的涵义从总体中作随机抽样，每个样本可以算得一个可信区间。如95%可信区间意味着做100次抽样，算得100个可信区间，平均有95个估计正确。在实际研究中，一般只进行一次抽样，算得一个可信区间，对于这个可信区间来说，我们有95%把握认为其包括了总体均数图6-5 从N（0, 1）中随机抽样算得的100个95可信区间（n=10）下列说法正确吗？算得某95%的可信区间，则：总体参数有95%的可能落在该区间有95%的总体参数在该区间内该区间包含95%的总体参数该区间有95%的可能包含总体参数该区间包含总体参数，可信度为95%可信区间的两个要素可信度（Confidence)

9、：可靠性，即1-。一般取90%,95,可人为为控制精确性(Precision)：区间的大小（区间的长度），越小越好必须二者兼顾均数的可信区间与参考值范围的区别区别点均数的可信区间参考值范围意义按预先给定的概率，确定的未知参数的可能范围“正常人”的解剖、生理、生化、某项指标的波动范围计算公式已知或未知但 n 较大未知：正态分布：偏态分布：PX P100-X用途估计总体均数判断观察对象的某项指标正常与否第四节二项分布与Poisson分布一、二项分布看来只好替你打扫卫生了！对于n次独立的试验，如果每次试验结果出现且只出现对立事件A与之一，在每次试验中出现A的概率是常数(00.5时分布呈

10、负偏态；特别是当n值不是很大时，偏离0.5愈远，分布愈偏随着n的增大，二项分布逐渐逼近正态分布。如 =0.30，n=5和n=10时，图形呈偏态，当n=30时，图形已接近正态分布。一般地说，如果n或n(1-)大于5时，常可用正态近似原理处理二项分布问题3.1 二项分布的性质：累积概率（1）二项分布的概率之和等于1（2）单侧累积概率至多有m例阳性的概率（下侧累积概率）至少有m例阳性的概率（上侧累积概率）3.2 二项分布的性质：均数和方差阳性结结果发发生数X的总总体均数总总体方差总总体标标准差4. 二项分布的抽样分布及其性质二项分布的随机抽样性质仍然被中心极限定理所反映在n足够大时，

11、样本率近似服从正态分布样本率p的均数等于样本率p的标准差（率的标准误）5. 二项分布的应用：区间估计查表法，适用于n50时；正态近似法，适用于n较大，p和1-p均不太小，如np和n(1-p)均大于5时。此时总体率的1-可信区间间如下【例6-7】某医院应用氨苄青霉素治疗呼吸道感染，45例患者中有2例发生过敏反应。试估计过敏反应发生率的95%可信区间查附表5（百分率的可信区间表），n=45的行与X=2的列交叉处的数值为115，即氨苄青霉素过敏反应发生率的95%可信区间为（1%，15%）【例6-6】某市疾控中心对该市郊区200名小学生进行贫血的检测，结果发现有80名小学生贫血，检出率为40

12、.0%。试估计该区贫血发生率的95%可信区间【例6-5】已知某地新生儿先天性心脏病的发病率为9，试计算该地100名新生儿中有3人患先天性心脏病概率。能否用前述二项分布进行计算？是否有更为简便的计算方法？【例6-5】若用二项分布：二、Poisson (泊松)分布当二项分布中n很大，p很小时,二项分布就变为Poisson分布，Poisson分布实际上是二项分布的极限分布法国数学家Simeon Denis Poisson (1781-1840) 1837年在关于判断的概率之研究一文中提出的描述随机现象的一种常用分布 Poisson分布也是一种重要的离散型概率分布，用于研究单位时间、单位人群、单位

13、空间内，某稀有事件发生次数的分布单位体积水中细菌数单位体积空气中粉尘数单位时间内放射性物质放射出的质点数单位空间中某些昆虫数一定人群中恶性肿瘤或罕见非传染性疾病患病数或死亡数可以认为满足以下三个条件的随机变量服从Poisson分布：平稳性：X的取值与观察单位的位置无关，只与观察单位的大小有关独立性：在某个观察单位上X的取值与前面各观察单位上X的取值独立（无关）普通性：在充分小的观察单位上X的取值最多为11. Poisson分布的概率函数若随机变量的概率函数为：则称此变量服从Poisson分布，记为【例6-5】中：2. Poisson分布的累计概率3. Poisson分布的图形

14、4.1 Poisson分布的性质均数和方差 Poisson分布的均数和方差相等，均为；即Poisson分布例为监测饮用水的污染情况，现检验某社区每毫升饮用水中细菌数，共得400份记录如下：试分析饮用水中细菌数的分布是否服从Poisson分布。若服从，按Poisson分布计算每毫升水中细菌数的概率及理论频数1ml水中细菌数0123合计次数f243120316400经计经计算得每毫升水中平均细细菌数 , 方差。两者很接近，故可认为认为每毫升水中细细菌数服从Poisson分布。以0.500代替，得(k=0,1,2)1ml水中细菌数的分布细细菌数次数f频频率概率理论频论频数

15、0 2430.60750.6065 242.601 1200.30000.3033 121.322 310.07750.0758 30.323 60.01500.0144 5.76合计计 4001.00001.0000 400.00 2002年韩日世界杯64场比赛中，各队进球数有多有少。大部分是0，1，2个进球，个别队是5个以上进球，最多的是8个进球，平均是1.2578个/场/队。虽然强队大都能进球、赢球(如巴西队)，弱队大都不能进球(如中国队)。但宏观上来说，各队进球数服从Poisson分布！平均计数为1.2578的Poisson分布每场各队进球数场次理论数03736.39 14745.77 22728.78 31312.07 4 2 3.79 5 1 0.956 1 0.25128 128.004.2 Poisson分布中均数的抽样分布及其性质在足够大时，Poisson分布的平均计数近似正态分布平均计

展开阅读全文