医学统计学课后答案DOC

资源描述

《医学统计学课后答案DOC》由会员分享，可在线阅读，更多相关《医学统计学课后答案DOC（11页珍藏版）》请在金锄头文库上搜索。

1、第二章1答：在统计学中用来描述集中趋势的指标体系是平均数，包括算术均数，几何均数，中位数。均数反映了一组观察值的平均水平，适用于单峰对称或近似单峰对称分布资料的平均水平的描述。几何均数：有些医学资料，如抗体的滴度，细菌计数等，其频数分布呈明显偏态，各观察值之间呈倍数变化(等比关系)，此时不宜用算术均数描述其集中位置，而应该使用几何均数(geometric mean)。几何均数一般用G表示，适用于各变量值之间成倍数关系，分布呈偏态，但经过对数变换后成单峰对称分布的资料。中位数和百分位数：中位数(median)就是将一组观察值按升序或降序排列，位次居中的数，常用M表示。理论上数据集中有一

2、半数比中位数小，另一半比中位数大。中位数既适用于资料呈偏态分布或不规则分布时集中位置的描述，也适用于开口资料的描述。所谓“开口”资料，是指数据的一端或者两端有不确定值。百分位数(percentile)是-个百分位数P将全部观察值分为两个部分，理XX论上有X%的观察值比Px小，有(100-X)%观察值比px大。故百分位数是一个界值，也是分布数列的一 XX百等份分割值。显然，中位数即是P50分位数。即中位数是一特定的百分位数。常用于制定偏态分布资料的正常值范围。2答：常用来描述数据离散程度的指标有：极差、四分位数间距、标准差、方差、及变异系数，尤以方差和标准差最为常用。极差(range，记为

3、R)，又称全距，是指一组数据中最大值与最小值之差。极差大，说明资料的离散程度大。用极差反映离散程度的大小，简单明了，故得到广泛采用，如用以说明传染病、食物中毒等的最短、最长潜伏期等。其缺点是：1.不灵敏；2不稳定。四分位数间距(inter-quartile range)就是上四分位数与下四分位数之差，即：Q = QQL ,其间包含了UL全部观察值的一半。所以四分位数间距又可看成中间一半观察值的极差。其意义与极差相似，数值大，说明变异度大；反之，说明变异度小。常用于描述偏态分布资料的离散程度。极差和四分位数间距均没有利用所研究资料的全部信息，因此仍然不足以完整地反映资料的离散程度。方差(

4、variance)和标准差(standard deviation)由于利用了所有的信息，而得到了广泛应用，常用于描述正态分布资料的离散程度。变异系数(coefficient of variance， CV)亦称离散系数(coefficient of dispersion)，为标准差与均数之比，常用百分数表示。变异系数没有度量衡单位，常用于比较度量单位不同或均数相差悬殊的两组或多组资料的离散程度。3答：常用的相对数指标有：比，构成比和率。比(ratio)，又称相对比，是A、B两个有关指标之比，说明A为B的若干倍或百分之几，它是对比的最简单形式。其计算公式为比二A/B率(rate)又称频率

5、指标，用以说明某现象发生的频率或强度。常以百分率()、千分率(。)、万分率(1/ 万)、十万分率(1/10万)等表示。计算公式为：构成比(proportion)又称构成指标，它说明一种事物内部各组成部分所占的比重或分布，常以百分数表示，其计算公式为：4答：当比较两类事物的总率时，如果此两同类事物的内部构成，特别是某项能影响指标水平的重要特征在构成上不同，往往会高估或低估总率。在这种情况下，直接进行两个总率的比较，会产生错误的结论。此时，必须首先设法消除这种内部构成上的差别，才能进行比较。统计学上将这种方法称为率的标准化(standardization method of rate)，即

6、采用统一的标准对内部构成不同的各组频率进行调整和对比的方法，调整后的率为标准化率，简称为标化率。5(1)编制频数分布表并绘制频数分布图，简述这组数据的分布特征；组段频数频率()；累计频数()组中值10832.52.5109.5111108.3310.83112.51142218.3329.17115.51173831.6760.83118.51202016.6777.5121.5123181592.5124.512675.8398.33126.512913221.67100129.5合计120100(2)计算中位数、均数、几何均数，用何者表示这组数据的集中位置好？答：X a(3X 109.

7、5 +10X112.5 + 22X115.5 + 38X118.5 + 20X121.5 +18X124.5 + 7x 126.5 + 2xl39.5)/120 =119.4135a lg-1 (lg3 X109.5 + lglOX112.5 + lg22x115.5 + lg38 x118.5 + lg20x121.5 + lg18x124.5 + lg7 x 126.5 + lg2xl39.5)/120=119.25125用均数较好.(3)计算极差、标准差，用何者表示这组数据的离散趋势好?答:极差：22.62四分位数间距：5.915 标准差：4.380736 用标准差表示较好.6.答：本例

8、频数分布为偏态分布，长尾拖向x轴正方向，故为正偏态。适宜用中位数表示其平均水平，中位数为4,四分位数间距为4。7.40名麻疹易感儿童接种麻疹疫苗后一个月，血凝抑制抗体滴度如下表。试计算平均滴度。抗体滴度1:41:81:161:321:641:1281:2561:512人数156271045几何均数：exp(ln(4)+5xln(8)+16xln(16)+2xln(32)+7xln(64)+10xln(128)+4xln(256)+5xln(512)/40)= 1288答：此医生的分析是不正确的，原因在于:首先明确率的定义:实际发生某现象的观察单位数x比例其数(K) 可能发生某现象的观察单位总

9、数发病率的分子为“某时期内发病人数”，而被观察对象某时期内可能发病多次，所以发病人数是人次数；分母为“同时期平均人口数”，而按率的定义应为“同时期暴露总人数该单位抽样检查2839名职工，其中高血压患者中，男性是178例，女性是49例，共227例，可以计算高血压患者占接受检查所有职工的构成比为7.995773%至于40岁以上的患者占接受检查总人数的90.3%，也是构成比；60岁以上者占接受检查总人数的10.2%也是构成比，不能与发病率混为一谈。关于高血压与性别有关的结论也不妥。因为在接受检查人群中的男女内部构成比是不同的，要进行比较首先要设法消除内部构成比的差异，即就是率的标准化，然后比

10、较。第三章1正态分布与标准正态分布的区别：正态分布是一簇单峰分布的曲线，卩和。可以有任意取值；标准正态分布是一条单峰曲线，卩和。有固定的值，卩=0，0=1。2 u = (x-y)/o= (y-o-y)/o= -1查标准正态分布表，得(-1)=0.1587，所以小于片o者所占的比例为15.87%。3医学参考值范围的含义：是根据正常人的数据估计绝大多数正常人某项指标所在的范围。选定同质的正常人作为研究对象。所谓正常人是指不具有影响所测指标的因素或疾病的那类同质人群。确定原则：选定同质的正常人群作为研究对象控制检测误差判断是否分组单、双侧问题选择百分界值确定可疑范围方法：正态分布法：

11、适用于服从正态分布或近似正态分布的资料百分位数法：适用于不服从正态分布的资料对数正态分布法：适用于对数正态分布的资料4如果资料服从正态分布，那么双侧95%正常值范围为p1.96o；如果资料不服从正态分布，那么双侧95% 正常值范围就不能用正态分布来做。5 1 人以下的概率：P(xWl)=P(O)+P(l)=Ci0oO.2oO.8io+Ci0iO.2iO.89=O.3758人以上的概率：1010P(XN8)=P(8)+P(9)+P(1O)=Cio8O.28O.82+Cio9O.29O.8i+CioioO.2ioO.8o=7.79x1O56二项分布的应用条件：101010 观察单位只能有互相对

12、立的两种结果之一。已知发生某一结果的概率n不变，其对立结果的概率则为1-n n次试验在相同的条件下进行，且各观察单位的结果互相独立，即每个观察单位的观察结果不会影响到其他观察单位的结果。7二项分布和正态分布之间的关系：随着n的增大，二项分布逐渐逼近正态分布。当nn较大时，二项分布 B(n,n)近似正态分布。举例：病人的治愈与不治愈，理化检验结果的阴性与阳性，个体的发病与不发病等属于二项分布资料；某地区12岁男孩的身高，某学校同年级女生的体重等属于正态分布。第四章1标准差标准误不同：意义上：描述一组变量值的离散程度描述样本均数的离散称度应用上：1、标准差越小，说明变量值围绕均值分布越紧

13、密，均数的代表性越好。1、标准误越小，说明样本均数和总体均数的差异越小,用样本均数估计总体均数的可靠性越大。2、X土 u s估计变量值的分 a布范围。2、用x 土 t s_估计总体均数 a x的可信区间。与n的关系：n越大，标准差越稳定n越大，标准误越小相同：1、都是描述变异度的统计指标2、一=严与b成正比，与vn成反比； x yjnxx3、n 一定时，同一组资料，标准差越大，标准误也越大。2a水准是在假设检验之前确定的，说明按不超过多大的误差为条件作结论，是犯I型错误的最大风险，是事前概率；P值是指由H0所规定的总体作随机抽样，获得等于大于现有样本获得的检验统计量值得概率。标明以

14、多大的误差拒绝H0,是事后概率。3配对设计的差值的总体均数的可信区间表达公式：d土t s-,n-1 d两均数差值的总体均数的可信区间表达公式：可以用可信区间回答假设检验的问题。可信区间估计与假设检验时统计学中两种重要的、独特的思维方式，它们在原理上相通，均基于抽样误差理论，只是考虑问题的角度不同。例如：样本均数与总体均数的比较，用可信区间的估计方法，观察由样本信息估计的总体均数的可信区间是否包含已知的总体均数，即可推断该样本是否来自已知均数的总体；用假设检验的方法，先假设样本均数代表的总体均数等于某已知的总体均数，再判断样本提供的信息是否支持这种假设。4 拒绝实际上成立的H0，这类“

15、弃真”的错误称为I型错误或第一类错误；不拒绝实际上是不成立的H0，这类“存伪”的错误称为II型错误或第二类错误。第一类错误的概率用a表示，第二类错误的概率用卩表示。 a越大，卩越小；反之，a越小，卩越大。拒绝H0，只可能犯第一类错误，不可能犯第二类错误；不拒绝H0，只可能犯第二类错误，不可能犯第一类错误。由于假设检验中可能犯第一类错误或第二类错误，所以结论不能绝对化。5 t检验的应用条件：独立性、正态性、方差齐性。u检验的应用条件：适用于大样本资料。t检验和u检验的关系：随自由度的增加，t分布逐渐趋向于标准正态分布。因此u检验是t检验的一种近似检验方法。当自由度大于50时，近似程度比较满意。6假设检验的意义就是分辨所研究的样本是否分别属于不同的总体，并对总体做出适当的结论。假设检验应注意的问题：要有严密的抽样研究计划：要保证样本是从同质总体中随机抽取，除了对比的因素外，其他影响结果的因素应一致。选用的假设

展开阅读全文