《人群健康研究的统计学方法计量资料的统计推断》由会员分享,可在线阅读,更多相关《人群健康研究的统计学方法计量资料的统计推断(77页珍藏版)》请在金锄头文库上搜索。
1、计量资料的统计推断计量资料的统计推断l l总体均数的估计总体均数的估计l l总体均数的假设检验总体均数的假设检验第一节第一节 总体均数的估计总体均数的估计l l均数的抽样误差与标准误均数的抽样误差与标准误 l lu、t分布分布 l l总体均数的估计总体均数的估计 l为什么进行抽样?为什么进行抽样?均数的抽样误差均数的抽样误差l l概念:抽样引起的总体参数与样本统计概念:抽样引起的总体参数与样本统计量之间的差异称为抽样误差量之间的差异称为抽样误差(sampling error) 。l l均数的抽样误差:抽样引起的样本均数均数的抽样误差:抽样引起的样本均数与总体均数的差异称为均数的抽样误差。与总体
2、均数的差异称为均数的抽样误差。欲了解某地成年男子血红蛋白含量总体均数?欲了解某地成年男子血红蛋白含量总体均数?欲了解某地成年男子血红蛋白含量总体均数?欲了解某地成年男子血红蛋白含量总体均数? 样本均数样本均数样本均数样本均数 样本样本1 样本样本2 样本样本k 各样本均数相不相同?为什么?各样本均数相不相同?为什么?总体数理统计的中心极限定理数理统计的中心极限定理l l从从正正态态分分布布N( , 2)中中,以以固固定定n抽抽取取样样本,样本均数的分布仍服从正态分布;本,样本均数的分布仍服从正态分布;l l即即使使是是从从偏偏态态分分布布总总体体抽抽样样,只只要要n足足够够大,的分布也近似正态
3、分布;大,的分布也近似正态分布;l l样样本本均均数数的的总总体体均均数数仍仍为为 ,样样本本均均数数的的标准差为标准差为 。标准误(standard error)l l样本均数的标准差称标准误样本均数的标准差称标准误样本均数的标准差称标准误样本均数的标准差称标准误, ,是说明均数抽样误是说明均数抽样误是说明均数抽样误是说明均数抽样误差大小的指标,差大小的指标,差大小的指标,差大小的指标, 大,抽样误差大;反之,大,抽样误差大;反之,大,抽样误差大;反之,大,抽样误差大;反之, 小,抽样误差小小,抽样误差小小,抽样误差小小,抽样误差小 。l l标准误标准误标准误标准误 的计算:的计算:的计算:
4、的计算:l l标准误标准误标准误标准误 的估计值:的估计值:的估计值:的估计值:影响标准误大小的因素影响标准误大小的因素l l 的大小与的大小与 成正比成正比l l 与样本含量与样本含量n的平方根成反比的平方根成反比 表表8.1 模拟结果模拟结果100个样本均数个样本均数t分布 l lt分布的由来分布的由来l lt分布的特征分布的特征l lt分布曲线下的面积分布曲线下的面积t分布的由来变量变换总体 样本均数 中心极限定理标准正态分布 变量变换未知l l如果抽取例数如果抽取例数如果抽取例数如果抽取例数n=n=5 5的样本的样本的样本的样本k k个,每个样本又都可个,每个样本又都可个,每个样本又都
5、可个,每个样本又都可以按公式(以按公式(以按公式(以按公式(13.413.4)计算出一个)计算出一个)计算出一个)计算出一个t t值,可将值,可将值,可将值,可将k k个个个个t t值值值值编制成频数表,作出直方图,当编制成频数表,作出直方图,当编制成频数表,作出直方图,当编制成频数表,作出直方图,当k k无限增大时,无限增大时,无限增大时,无限增大时,则可得到一条光滑的曲线。则可得到一条光滑的曲线。则可得到一条光滑的曲线。则可得到一条光滑的曲线。 (式(式(式(式13.4 13.4 ) 同理,如果抽取例数同理,如果抽取例数同理,如果抽取例数同理,如果抽取例数n=15n=15时,仍能得到一时,
6、仍能得到一时,仍能得到一时,仍能得到一条条条条t t分布曲线分布曲线分布曲线分布曲线,因此,当因此,当因此,当因此,当n n变化时,就可以得到不变化时,就可以得到不变化时,就可以得到不变化时,就可以得到不同的同的同的同的t t分布曲线,如图分布曲线,如图分布曲线,如图分布曲线,如图13-113-1:图13-1 自由度分别为1、5、的t分布 自由度自由度l l随机变量能够自由取值的个数随机变量能够自由取值的个数l l = n-限制条件的个数限制条件的个数t分布的特征分布的特征 l lt t分布是一簇单峰分布曲线。分布是一簇单峰分布曲线。分布是一簇单峰分布曲线。分布是一簇单峰分布曲线。l lt t
7、分布以分布以分布以分布以0 0为中心,左右对称且均匀下降。为中心,左右对称且均匀下降。为中心,左右对称且均匀下降。为中心,左右对称且均匀下降。l l其其其其形形形形态态态态变变变变化化化化与与与与自自自自由由由由度度度度 的的的的大大大大小小小小有有有有关关关关。自自自自由由由由度度度度 越越越越小小小小,则则则则t t值值值值越越越越分分分分散散散散,曲曲曲曲线线线线越越越越低低低低平平平平;自自自自由由由由度度度度 逐逐逐逐渐渐渐渐增增增增大大大大时时时时,t t分分分分布布布布逐逐逐逐渐渐渐渐逼逼逼逼近近近近u u分分分分布布布布( (标标标标准准准准正正正正态态态态分分分分布布布布)
8、);当;当;当;当 =时,时,时,时,t t分布即为分布即为分布即为分布即为u u分布。分布。分布。分布。 t分布曲线下面积分布曲线下面积规律规律l lt分布曲线下总面积仍为分布曲线下总面积仍为1或或100%l lt分布曲线下面积以分布曲线下面积以0为中心左右对称。为中心左右对称。l l由于由于t分布是一簇曲线,故分布是一簇曲线,故t分布曲线下面分布曲线下面积固定面积积固定面积(如如95%或或99%)的界值不是一的界值不是一个常量,而是随自由度的大小而变化,个常量,而是随自由度的大小而变化,如附表二如附表二 。 附表附表二,二,t分布表的特点分布表的特点l l附表二的第一列为自由度附表二的第一
9、列为自由度 ,其余各列为,其余各列为概率概率P,表中数值为其相应的,表中数值为其相应的t界值,记界值,记作作t , 。l l附表二只列出正值,若计算的附表二只列出正值,若计算的t值为负值值为负值时,可用其绝对值查表时,可用其绝对值查表 。l l附表二右上附图的阴影部分表示附表二右上附图的阴影部分表示t , 以外以外尾部面积的概率尾部面积的概率 。单侧t0.05,30=1.697 l l其通式为其通式为l l单侧:单侧:P(t-t , )= 或或P(tt , )= l l双侧:双侧:P(t-t /2, )+P(tt /2, )= l l图中非阴影部分面积的概率为,图中非阴影部分面积的概率为,l
10、lP(-t /2, t 0 0 = = 0 0 0 0或是否或是否或是否或是否 0 0 = = 0 0 P 时,表示在时,表示在时,表示在时,表示在HH0 0成立的条件下,出现成立的条件下,出现成立的条件下,出现成立的条件下,出现等于及大于现有统计量的概率不是小概率,等于及大于现有统计量的概率不是小概率,等于及大于现有统计量的概率不是小概率,等于及大于现有统计量的概率不是小概率,现有样本信息还不足以拒绝现有样本信息还不足以拒绝现有样本信息还不足以拒绝现有样本信息还不足以拒绝HH0 0。l l结论结论若若若若P P ,拒绝,拒绝,拒绝,拒绝HH0 0,可以认为可以认为可以认为可以认为有差异。有差
11、异。有差异。有差异。若若若若PP 时,不拒绝时,不拒绝时,不拒绝时,不拒绝HH0 0,尚不能认为尚不能认为尚不能认为尚不能认为有差异。有差异。有差异。有差异。例13.6l l20例长期服用某种避孕药的妇女,其血例长期服用某种避孕药的妇女,其血清胆固醇的均数为清胆固醇的均数为6.0mol/L,一般健康妇,一般健康妇女血清胆固醇的均数为女血清胆固醇的均数为4.4 0mol/L,问长,问长期服用该种避孕药的妇女其血清胆固醇期服用该种避孕药的妇女其血清胆固醇的均数与一般健康妇女有无差别?的均数与一般健康妇女有无差别?l l其分析目的是推断样本所代表的未知总其分析目的是推断样本所代表的未知总体均数体均数
12、 与已知总体均数与已知总体均数 0有无差别。有无差别。 1.样本均数与总体均数比较(例样本均数与总体均数比较(例13.6)(1) (1) 建立检验假设,确定检验水准建立检验假设,确定检验水准建立检验假设,确定检验水准建立检验假设,确定检验水准 HH0 0: = = 0 0 H H1 1: 0 0 单侧单侧单侧单侧 = =0.050.05(2) (2) 计算统计量计算统计量计算统计量计算统计量 (3) (3) 确定确定确定确定P P值值值值, ,作出统计推断作出统计推断作出统计推断作出统计推断 查查查查附附附附表表表表2 2,t t界界界界值值值值表表表表,PP0.010.01,按按按按 =0.
13、05=0.05水水水水准准准准拒拒拒拒绝绝绝绝HH0 0,可可可可以以以以认认认认为为为为长长长长期期期期服服服服用用用用该该该该种种种种避避避避孕孕孕孕药药药药的的的的妇妇妇妇女女女女其其其其血血血血清清清清胆胆胆胆固固固固醇醇醇醇的的的的均均均均数数数数与一般健康妇女有差别。与一般健康妇女有差别。与一般健康妇女有差别。与一般健康妇女有差别。 l l例例13.4 某市某年抽查了某市某年抽查了100名名2岁男孩的岁男孩的体重,得平均体重为体重,得平均体重为11.18kg,标准差为,标准差为1.23kg。而同期全国九城市大量同龄男孩。而同期全国九城市大量同龄男孩的平均体重为的平均体重为11kg(
14、此调查结果可作为总此调查结果可作为总体均数体均数)。问该市。问该市2岁男孩的平均体重与全岁男孩的平均体重与全国的同期水平有无差别?国的同期水平有无差别? 配对计量资料的均数比较配对计量资料的均数比较l l在医学科学研究中的配对设计主要有以下情况:在医学科学研究中的配对设计主要有以下情况:在医学科学研究中的配对设计主要有以下情况:在医学科学研究中的配对设计主要有以下情况: 同一受试对象处理前后的数据同一受试对象处理前后的数据同一受试对象处理前后的数据同一受试对象处理前后的数据 配对的两个受试对象分别接受两种处理之后的数据;配对的两个受试对象分别接受两种处理之后的数据;配对的两个受试对象分别接受两
15、种处理之后的数据;配对的两个受试对象分别接受两种处理之后的数据; 同一样品用两种方法同一样品用两种方法同一样品用两种方法同一样品用两种方法( (或仪器等或仪器等或仪器等或仪器等) )检验的结果;检验的结果;检验的结果;检验的结果; 同一受试对象两个部位的数据。同一受试对象两个部位的数据。同一受试对象两个部位的数据。同一受试对象两个部位的数据。l l其目的是推断两种处理其目的是推断两种处理其目的是推断两种处理其目的是推断两种处理( (或方法或方法或方法或方法) )的结果有无差的结果有无差的结果有无差的结果有无差别。别。别。别。 例例13.7 对对8名某病患者用药治疗,测得治疗名某病患者用药治疗,
16、测得治疗前后的血沉前后的血沉(mm/h),结果如表,结果如表13-4,问该药,问该药是否对血沉有影响?是否对血沉有影响? 表表表表13-4 13-4 某病治疗前后的血沉某病治疗前后的血沉某病治疗前后的血沉某病治疗前后的血沉( (mm/h)mm/h) (1) (1) 建立假设检验建立假设检验建立假设检验建立假设检验, ,确定检验水准确定检验水准确定检验水准确定检验水准HH0 0:该药对血沉无影响,即:该药对血沉无影响,即:该药对血沉无影响,即:该药对血沉无影响,即 d d=0 =0 HH1 1:该药对血沉有影响,即:该药对血沉有影响,即:该药对血沉有影响,即:该药对血沉有影响,即 d d 0 0
17、 双侧双侧双侧双侧 =0.05=0.05(2) (2) 计算统计量计算统计量计算统计量计算统计量 = =n n-1=8-1=7 -1=8-1=7 (3) (3) 确定确定确定确定P P值值值值, ,作出统计推断作出统计推断作出统计推断作出统计推断 查附表查附表查附表查附表2 2,t t界值表,得界值表,得界值表,得界值表,得PPP0.05,按,按 =0.05水准不拒绝水准不拒绝H0,尚不能认为慢性尚不能认为慢性支气管患者尿支气管患者尿17酮类固醇的排出量与健酮类固醇的排出量与健康人不同。康人不同。 l l例例例例13.813.8:某医师在某克山病区分别检测急性克:某医师在某克山病区分别检测急性
18、克:某医师在某克山病区分别检测急性克:某医师在某克山病区分别检测急性克山病患者与健康人的血磷值,得山病患者与健康人的血磷值,得山病患者与健康人的血磷值,得山病患者与健康人的血磷值,得1111名克山病患名克山病患名克山病患名克山病患者血磷值的均数为者血磷值的均数为者血磷值的均数为者血磷值的均数为1.5211.521mmolmmol/L,/L,标准差为为标准差为为标准差为为标准差为为0.4220.422mmolmmol/L/L; 1313名健康人血磷值的均数为名健康人血磷值的均数为名健康人血磷值的均数为名健康人血磷值的均数为1.0851.085mmolmmol/L,/L,标准差为为标准差为为标准差
19、为为标准差为为0.4220.422mmolmmol/L/L,问该,问该,问该,问该地急性克山病患者与健康人的血磷值是否相同地急性克山病患者与健康人的血磷值是否相同地急性克山病患者与健康人的血磷值是否相同地急性克山病患者与健康人的血磷值是否相同?(1) 建立假设检验建立假设检验,确定检验水准确定检验水准H0: 1= 2 , 即两总体均数相等即两总体均数相等H1: 12 , 即两总体均数不相等即两总体均数不相等双侧双侧 =0.05 (2) 计算统计量计算统计量 (3) 确定确定P值值,作出统计推断作出统计推断 查附表查附表2 , t界值表界值表, 得得0.05P0.01,按,按 =0.05水准拒绝
20、水准拒绝H0,可以认为可以认为该地急性克该地急性克该地急性克该地急性克山病患者与健康人的血磷值不同山病患者与健康人的血磷值不同山病患者与健康人的血磷值不同山病患者与健康人的血磷值不同。 u检验l l两大样本均数比较,可用两大样本均数比较,可用两大样本均数比较,可用两大样本均数比较,可用u u检验检验检验检验(1) (1) 建立检验假设,确定检验水准建立检验假设,确定检验水准建立检验假设,确定检验水准建立检验假设,确定检验水准 HH0 0: = = 0 0 该市该市该市该市2 2岁男孩平均体重与全国同期水平相等岁男孩平均体重与全国同期水平相等岁男孩平均体重与全国同期水平相等岁男孩平均体重与全国同
21、期水平相等 HH1 1:该市:该市:该市:该市2 2岁男孩平均体重与全国同期水平不等岁男孩平均体重与全国同期水平不等岁男孩平均体重与全国同期水平不等岁男孩平均体重与全国同期水平不等 单侧单侧单侧单侧 = =0.050.05(2) (2) 计算统计量计算统计量计算统计量计算统计量 (3) (3) 确定确定确定确定P P值值值值, ,作出统计推断作出统计推断作出统计推断作出统计推断 查查查查附附附附表表表表2 2,t t界界界界值值值值表表表表,P P0.050.05,按按按按 =0.05=0.05水水水水准准准准不不不不拒拒拒拒绝绝绝绝HH0 0,尚尚尚尚不能认为该市不能认为该市不能认为该市不能
22、认为该市2 2岁男孩平均体重与全国同期水平不等。岁男孩平均体重与全国同期水平不等。岁男孩平均体重与全国同期水平不等。岁男孩平均体重与全国同期水平不等。 例例例例 某地抽样调查了部分健康成人的红细胞数,其某地抽样调查了部分健康成人的红细胞数,其某地抽样调查了部分健康成人的红细胞数,其某地抽样调查了部分健康成人的红细胞数,其中男性中男性中男性中男性360360人,均数为人,均数为人,均数为人,均数为4.6604.660 10101212/ /L L,标准差为,标准差为,标准差为,标准差为0.5750.575 10101212/ /L L;女性;女性;女性;女性255255人,均数为人,均数为人,均
23、数为人,均数为4.1784.178 10101212/ /L L,标准差为,标准差为,标准差为,标准差为0.2910.291 10101212/ /L L,试问该,试问该,试问该,试问该地男、女平均红细胞数有无差别?地男、女平均红细胞数有无差别?地男、女平均红细胞数有无差别?地男、女平均红细胞数有无差别?(1) (1) 建立假设检验建立假设检验建立假设检验建立假设检验, ,确定检验水准确定检验水准确定检验水准确定检验水准 HH0 0: 1 1= = 2 2,即该地男、女平均红细胞数相等。,即该地男、女平均红细胞数相等。,即该地男、女平均红细胞数相等。,即该地男、女平均红细胞数相等。 HH1 1
24、: 1 1 2 2,即该地男、女平均红细胞数不等。,即该地男、女平均红细胞数不等。,即该地男、女平均红细胞数不等。,即该地男、女平均红细胞数不等。双侧双侧双侧双侧 =0.05=0.05(2) (2) 计算统计量计算统计量计算统计量计算统计量 (3) (3) 确定确定确定确定P P值值值值, ,作出统计推断作出统计推断作出统计推断作出统计推断 查查查查附附附附表表表表2 2,t t界界界界值值值值表表表表( ( = = 时时时时) ),得得得得P P0.0010检验效能l l1- 称为或把握度称为或把握度(power of a test),其统,其统计学意义是若两总体确有差别,按计学意义是若两总
25、体确有差别,按 水准水准能检出其差别的能力。能检出其差别的能力。 l l 值的大小很难确切估计,只有在已知样值的大小很难确切估计,只有在已知样本含量本含量n、两总体参数差值、两总体参数差值 以及所规定以及所规定的检验水准的检验水准 的条件下的条件下,才能估算出才能估算出 大小。大小。, 的关系l l通常当通常当n固定时,固定时, 愈小,愈小, 愈大;反之,愈大;反之, 愈大,愈大, 愈小。愈小。l l增大增大n,可同时减小,可同时减小 , 。假设检验中的注意事项l l要保证组间的可比性要保证组间的可比性 l l要根据研究目的、设计类型和资料类型要根据研究目的、设计类型和资料类型选用适当的检验方法选用适当的检验方法 l l正确理解差别有无显著性的统计学意义正确理解差别有无显著性的统计学意义 l l结论不能绝对化结论不能绝对化 l l单、双侧检验应事先确定单、双侧检验应事先确定l比较下面三种说法若P,拒绝H0,可以认为有差异。若P,拒绝H0,可以认为差异有显著性。若P,拒绝H0,可以认为差异有统计学意义。“有显著性” 不是指两组均数差异较大标准差和标准误的区别 标准差(s) 标准误( ) 计算公式 应用表示观察值的变异程度 估计均数的抽样误差的大小计算变异系数 估计总体均数可信区间确定医学参考值范围 进行假设检验 计算标准误均数可信区间与参考值范围