离散趋势指标离散趋势指标(( 变异程度的统计描述)变异程度的统计描述)(( Measures of Dispersion ))要求:要求: 掌握:掌握:标准差的含义及计算方法;标准差的含义及计算方法;变异系数的计算方法和应用变异系数的计算方法和应用 熟悉:熟悉:其他描述离散趋势的常用指其他描述离散趋势的常用指标 离散趋势离散趋势(dispersion tendency)指标指标三组同年龄、同性别儿童的体重(三组同年龄、同性别儿童的体重(kgkg)) 甲组甲组 26 28 30 32 34 26 28 30 32 34 乙组乙组 24 27 30 33 36 24 27 30 33 36 丙组丙组 26 29 30 31 34 26 29 30 31 34 30 30 30 30 30 30 标准差的意义标准差的意义 标准差是表示一组观察者离散程度或变标准差是表示一组观察者离散程度或变异程度的统计指标;异程度的统计指标; 描述一个变量的所有观察值与均数的平描述一个变量的所有观察值与均数的平均离散程度的指标。
均离散程度的指标 全距表示一群变量值的最大值与最小值全距表示一群变量值的最大值与最小值之差,反映个体差异的范围,用之差,反映个体差异的范围,用R R表示全距大,说明变异度大;反之,说明变异度距大,说明变异度大;反之,说明变异度小 甲组甲组 26 28 30 32 3426 28 30 32 34 乙组乙组 24 27 30 33 3624 27 30 33 36R=8R=8R=12R=12一、全距一、全距(range)(range)1.不能全面反映资料的离散程度;不能全面反映资料的离散程度;2.不稳定,易受极端值的影响,抽样不稳定,易受极端值的影响,抽样 误差大优点缺点1.表示变异范围,简单明了、容易使用,如表示变异范围,简单明了、容易使用,如用于说明传染病、食物中毒等的最短、最长用于说明传染病、食物中毒等的最短、最长潜伏期等;潜伏期等;2.各种分布类型的资料均可用各种分布类型的资料均可用全距全距(range)(range)二、四分位数间距二、四分位数间距(quartile interval)(quartile interval) 四四分分位位数数间间距距是是上上四四分分位位数数( (Q QU U= =P P7575) )和和下下四四分分位位数数( (Q QL L= =P P2525) )之之差差,,用用Q Q表表示示( (Q QU U- -Q QL L) )。
该该数数值值越越大大,,说说明明变变异异度度越越大大;;反反之之,,说明变异度越小说明变异度越小 某地某地630630名正常女性血清甘油三脂含量名正常女性血清甘油三脂含量(mg/dl)(mg/dl) L L: : 组段的下限;组段的下限; i iM M: : 组距;组距; f fx x: : 频数;频数; f fL L: : P Px x所在组段之前的累积频数所在组段之前的累积频数 1.与中位数配套,用于偏态分布资料及分布的与中位数配套,用于偏态分布资料及分布的一端或两端无确切数值的资料;一端或两端无确切数值的资料;2.比全距稳定比全距稳定未考虑到每个观察值的变异度未考虑到每个观察值的变异度优点缺点 四分位数间距四分位数间距( (quartile interval) ) 三、平均差距指标三、平均差距指标(一)平均偏差(一)平均偏差(Mean Difference(Mean Difference) ) 甲班:甲班: 乙班:乙班: 特点特点: :直观直观 , , 易理解;但由于用了绝对值,不便易理解;但由于用了绝对值,不便于数学处理,实际中很少使用。
于数学处理,实际中很少使用 (二)离均差平方和((二)离均差平方和(Sum of SquareSum of Square,,SSSS)) 为为了了克克服服平平均均偏偏差差的的缺缺点点,,可可以以不不通通过过取取绝绝对对值值,,而而是是通通过过取取平平方方来来避避免免正正负负抵抵消消,,即即使使用用离离均均差平方和,其计算公式为差平方和,其计算公式为 SS SS 通常作为一个中间统计量使用通常作为一个中间统计量使用(三)方差(三)方差 (Variance) (Variance) 方差是将离均差平方和再取平均,即方差是将离均差平方和再取平均,即 注意:对于样本资料,分母用的是注意:对于样本资料,分母用的是n n-1-1,称为自由度,称为自由度(degree of freedom(degree of freedom,,df )df ) 方差的特点:便于数学上的处理,但由于方差的特点:便于数学上的处理,但由于有平方,度量衡发生变化,不便于实际应用有平方,度量衡发生变化,不便于实际应用。
方差方差(variance(variance))自由度=自由度=n-限制条件的个数,用-限制条件的个数,用ν表示n--1):当):当 选定时,选定时,n个变量值个变量值 中能自由变动的变量值的个数中能自由变动的变量值的个数(1) 方差越大,资料的离散程度越方差越大,资料的离散程度越 大大(全面考虑了每个观察值全面考虑了每个观察值);;(2) 不受观察值个数的影响不受观察值个数的影响优点缺点 一些资料不适用于以平方表示一些资料不适用于以平方表示方差方差(variance(variance)) 四、标准差四、标准差 (Standard Deviation) 将方差取平方根,还原成与原始观察值单位将方差取平方根,还原成与原始观察值单位相同的变异量度即为标准差:相同的变异量度即为标准差: 例如对于例经计算有例如对于例经计算有 甲患者:甲患者: 同理乙患者同理乙患者: :例例 三组同年龄、同性别儿童的体重三组同年龄、同性别儿童的体重((kgkg))甲组甲组 26 28 30 32 3426 28 30 32 34乙组乙组 24 27 30 33 3624 27 30 33 36丙组丙组 26 29 30 31 34 26 29 30 31 34 直接法直接法加权法加权法标准差应用标准差应用1.表示观察值分布的离散程度。
均数相近、表示观察值分布的离散程度均数相近、度量单位相同的条件下,度量单位相同的条件下,S越大,观察值越大,观察值的变异程度越大,均数的代表性越差的变异程度越大,均数的代表性越差2. 结合均数计算结合均数计算CV3.结合均数描述正态分布资料的分布特征结合均数描述正态分布资料的分布特征和估计医学参考值范围和估计医学参考值范围4. 结合样本含量计算标准误结合样本含量计算标准误 五、变异系数五、变异系数(Coefficient of (Coefficient of Variation )Variation ) 主要用于对均数相差较大或单位不同的几组观主要用于对均数相差较大或单位不同的几组观察值的变异程度进行比较察值的变异程度进行比较 例例3.3 3.3 测测得得某某地地成成年年人人舒舒张张压压均均数数为为77.5mmHg,77.5mmHg,标标准准差差为为;;收收缩缩压压均均数数为为122.9mmHg,122.9mmHg,标标准准差差为为试试比较舒张压和收缩压的变异程度比较舒张压和收缩压的变异程度变异系数变异系数 Coefficient of variation Coefficient of variation (CV)(CV)应用应用1.1.表示数据分布的相对离散程度表示数据分布的相对离散程度2.2.比较均数相差悬殊的两组或多组资料比较均数相差悬殊的两组或多组资料的离散程度的离散程度3.3.比较度量衡单位不同的两组或多组比较度量衡单位不同的两组或多组资料的变异程度资料的变异程度 某某地地2020岁岁男男子子160160人人,,身身高高均均数数为为,,标标准准差差为为;;体体重重均均数数为为,,标标准准差差为为。
比比较较身身高高与与体重的变异程度体重的变异程度2020岁男子体重的变异程度比身高的岁男子体重的变异程度比身高的变异程度大变异程度大 某地不同年龄女童的身高(某地不同年龄女童的身高(cmcm)资料如)资料如下表所示下表所示 试比较不同年龄身高的变异程试比较不同年龄身高的变异程度 某地不同年龄女童身高的变异程度某地不同年龄女童身高的变异程度年龄组年龄组 人数人数 均数均数 标准差标准差 CV((%)) 1~~2月 月 5~~6月月 3~岁~岁 5~岁~岁 小结小结全距与四分位数间距:全距与四分位数间距:后者较稳定,但均不能后者较稳定,但均不能综合反映各观察值的变异程度综合反映各观察值的变异程度标准差标准差:最为常用,对正态分布尤为重要:最为常用,对正态分布尤为重要变异系数变异系数:可用于多组资料间度量衡单位:可用于多组资料间度量衡单位不同或均数相差悬殊时作变异度的比较不同或均数相差悬殊时作变异度的比较 以上指标都是数值越小,说明观察值以上指标都是数值越小,说明观察值的变异度越小,均数的代表性越好。
的变异度越小,均数的代表性越好平均指标和变异指标常配套使用平均指标和变异指标常配套使用 如如 正态分布:均数、标准差;正态分布:均数、标准差; 偏态分布:中位数、四分位间距偏态分布:中位数、四分位间距•练习:练习: 某某市市19741974年年为为了了解解该该地地居居民民发发汞汞的的基基础础水水平平, , 为为汞汞污污染染的的环环境境监监测测积积累累资资料料, ,调调查查了了留留住住该该市市一一年年以以上上, , 无无明明显显肝肝、、肾肾疾疾病病,,无无汞汞作作业业接接触触史史的的居民居民238238人的发汞含量人的发汞含量(μmol/kg)如下如下: : 用何种指标说明本资料的集中位置和变异程用何种指标说明本资料的集中位置和变异程度较好?并计算之度较好?并计算之 发发汞汞值值1.5~ 3.5~ 5.5~7.5~ 9.5~11.5~13.5~15.5~17.5~19.5~人人数数2066604818166103 某某检检验验师师测测定定了了1010名名正正常常成成年年钢钢铁铁工工人人的的血血红红蛋蛋白白值值(g/dl)(g/dl)和和红红细细胞胞数数( (万万/mm/mm3 3) )如如下下, ,试试比较这两个检测项目的结果哪个变异性大比较这两个检测项目的结果哪个变异性大? ? 血红蛋白血红蛋白(g/dL) 13.0 13.6 14.0 14.5 14.6 血细胞数血细胞数(万万/mm3) 510 515 517 518 520 522 524 525 528 530小小 结结 1.1.描描述述一一组组观观察察值值,,除除需需要要表表示示其其平平均均水水平平外外,,还要说明它的离散或变异的情况。
还要说明它的离散或变异的情况 2.2.衡衡量量变变异异程程度度大大小小的的指指标标有有多多种种: : 极极差差、、四四分分位位数数间间距距、、方方差差、、标标准准差差和和变变异异系系数数其其中中应应用用最多的是标准差和变异系数最多的是标准差和变异系数 作业:作业:•1、标准差与全距、四分位数间距比较,、标准差与全距、四分位数间距比较,有哪些优点?有哪些优点?•2、变异系数在什么情况下应用?它与、变异系数在什么情况下应用?它与标准差有什么区别和联系?标准差有什么区别和联系?。