卫生统计学第三章平均数与标准差Stillwatersrundeep.流静水深流静水深,人静心深人静心深Wherethereislife,thereishope有生命必有希望有生命必有希望第一节 算术均数和几何均数数值变量资料的统计描述:集中趋势数值变量资料的统计描述:集中趋势central central tendency tendency 和离散趋势和离散趋势tendency of dispersiontendency of dispersion平均数平均数averageaverage:说明一组观察值:说明一组观察值( (变量值变量值) )的集中的集中趋势、中心位置或平均水平趋势、中心位置或平均水平 (a measure of a measure of location, a measure of central tendency, a mean or an location, a measure of central tendency, a mean or an averageaverage) )平均数种类:算术均数平均数种类:算术均数arithmetic meanarithmetic mean、几何均、几何均数数geometric meangeometric mean、中位数、中位数medianmedian、众数、众数modemode、、调和均数调和均数harmonic mean, Hharmonic mean, H一、算术均数,简称均数一、算术均数,简称均数meanmean。
统计表示:总体的参数用统计表示:总体的参数用希腊字母希腊字母表示,样本的表示,样本的统计量用统计量用拉丁字母拉丁字母表示表示用用μμ表示总体均数,用表示总体均数,用 表示样本均数表示样本均数( (一一) )不分组资料均数的计算法不分组资料均数的计算法: :直接计算直接计算为避免过于复杂,在求和的范围可看清时对为避免过于复杂,在求和的范围可看清时对sigmasigma不记上下标不记上下标(dummy suffix)(dummy suffix),对,对x x也不加下标也不加下标The mean is the sum of the observations The mean is the sum of the observations divided by the number of observations.divided by the number of observations.(二)分组资料的均数计算法:频数表法P20例3-2,步骤:1、分组和编制频数分布表frequency distribution table–1)1)找出观察值中找出观察值中最大值最大值、、最小值最小值和和极差极差rangerange–2)2)按极差大小决定组段数、组段和组距按极差大小决定组段数、组段和组距class class intervalinterval::8 8~~1515组,常用极差的组,常用极差的1/101/10取整作组取整作组距,组段下限和上限距,组段下限和上限low limit and upper limitlow limit and upper limit应应界限分明,无交叉,从下限开始不包括上限,界限分明,无交叉,从下限开始不包括上限,第一组段包括最小,最后组段包括最大观察值第一组段包括最小,最后组段包括最大观察值 –3)3)列表划记列表划记tallyingtallying:见:见P20P20表表3-23-2。
频数表可绘频数表可绘成直方图成直方图histogramhistogram2 2、加权法、加权法weighting methodweighting method–x x为组中值为组中值class mid-value (midpoint)=class mid-value (midpoint)=本组下本组下限与相邻较大组段的下限相加除以限与相邻较大组段的下限相加除以2 2–k k 为组数为组数–f f 为各组的频数,又称权数为各组的频数,又称权数weightweight–∑f ∑f 各组频数之总和各组频数之总和–∑fx ∑fx 为各组组中值与频数乘积之和为各组组中值与频数乘积之和计算实例见计算实例见P21P213 3、简捷法、简捷法short-cut methodshort-cut method1)1)在频数表的基础上,以与最大频数相对应的组中在频数表的基础上,以与最大频数相对应的组中值为假定均数值为假定均数x x0 0, assumed origin, assumed origin2)2)列出简捷法计算均数用表,列出简捷法计算均数用表,– –d d为各组组中值减去假定均数后除以组距为各组组中值减去假定均数后除以组距i i,假定均数对,假定均数对应应d d为为0 0,向上依次为,向上依次为-1-1,,-2-2,,… … 向下依次为向下依次为1 1,,2 2,,……3)3)将各行将各行f f值与值与d d值值 相乘得相乘得dfdf,再求,再求∑df∑df4)4)求均数求均数*: *: 可以任何一组组中值为假定均数,结果一致,可以任何一组组中值为假定均数,结果一致,但设在频数最大组或其附近时,计算较简便。
计算但设在频数最大组或其附近时,计算较简便计算机更方便机更方便l l二、几何均数二、几何均数geometric meangeometric mean,简记为,简记为GGl l1)1)资料偏态分布,少数数据过分偏大,资料偏态分布,少数数据过分偏大,( (各观察值各观察值间呈等比关系间呈等比关系 ) ),原始数据进行对数变换后为对称,原始数据进行对数变换后为对称分布,如平均潜伏期、平均抗体滴度等资料分布,如平均潜伏期、平均抗体滴度等资料l l2)2)公式公式l lP22P22例例3-33-3,计算抗体滴度的几何均数;该方法计,计算抗体滴度的几何均数;该方法计算出的算出的GG通常偏小,可在计算反对数前通常偏小,可在计算反对数前+(+(lgdlgd)/2)/23)几何均数的应用–几何均数常用于等比资料几何均数常用于等比资料–观察值不能有观察值不能有0 0–观察值不能同时有正值和负值,若全为负先把观察值不能同时有正值和负值,若全为负先把负号除掉,最后结果前加负号负号除掉,最后结果前加负号第二节 中位数和百分位数l l一、一、median median 用用MM表示表示: : 把变量值按大小顺序排列,把变量值按大小顺序排列,居于中间位置的那个数值就是居于中间位置的那个数值就是MMl l适用于:偏态或分布不明的资料适用于:偏态或分布不明的资料– –对称分布时接近均数,偏态分布时更合理对称分布时接近均数,偏态分布时更合理l l( (一一) )未分组资料未分组资料: P23: P23例例3-43-4,例,例3-53-5l l( (二二) )分组资料:按频数表计算分组资料:按频数表计算MMl l公式:公式:l lL L中位数所在组的下限中位数所在组的下限l lWW中位数所在组的宽度中位数所在组的宽度l lf f中位数所在组的频数中位数所在组的频数( (例数例数) )l ln n总频数总频数l lC C中位数所在组的前一组的累计频数中位数所在组的前一组的累计频数cumulative cumulative frequencyfrequency用累计频数〔百分数〕法寻找中位数所在的组段:累计频数刚大于n/2的组段用内插法linear interpolation求中位数将W等分为f份,从C至n/2的数值长为(W/f)*(n/2 – C)L值累计频数Cn/2二、百分位数percentile:指将n个观察值从小到大依次排列,再把它分成100等份,对应于r%位的数值即为第r百分位数。
通常用Pr 表示中位数即第50百分位数(一)不分组资料的计算方法Pr=x r%(n+1) 当n为150时计算第5百分位数5%(150+1)= 7.55个变量值,如第7个变量为15,第8个变量为17,用内插法求x7.55=15+0.55(17-15)=16.1,P5为16.1l l( (二二) )分组资料的计算方法分组资料的计算方法l lpercentile is estimated by linear interpolation aspercentile is estimated by linear interpolation asl l( (三三) )要计算多个百分位数时亦用图解法:要计算多个百分位数时亦用图解法:y axis is y axis is cumulative relative frequency, x axis is cumulative relative frequency, x axis is observation (incubation period). see Figure 3-2, observation (incubation period). see Figure 3-2, P25P25中位数和百分位数的应用–1)1)中位数常用于描述偏态分布资料的集中位置,中位数常用于描述偏态分布资料的集中位置,反映位次居中的观察值的水平,只受居中变量反映位次居中的观察值的水平,只受居中变量值波动的影响,对称分布时与均数相同值波动的影响,对称分布时与均数相同–2)2)百分位数用于描述观察值在某百分位位置时百分位数用于描述观察值在某百分位位置时的水平,多个百分位数结合应用可更全面描述的水平,多个百分位数结合应用可更全面描述分布特征分布特征–3)3)百分位数常用于确定医学参考值范围百分位数常用于确定医学参考值范围(reference ranges, (reference ranges, 正常值范围正常值范围) )–4)4)分布中部的百分位数相当稳定,具有较好的分布中部的百分位数相当稳定,具有较好的代表性,但靠近两端的百分位数只有在样本数代表性,但靠近两端的百分位数只有在样本数足够大时才较稳定。
足够大时才较稳定 第三节 标准差standard deviation一、标准差的意义:SD是表示一套变量值离散程度的指标,均数与标准差结合,能全面反映一套变量值的分布情况SD is a measure of variation, scatter, spread or dispersion. 离散程度 离均差x-x 考虑正负值变为离均差的平方 考虑观察值的个数则除以n,为方差variance, 考虑到V是观察单位的平方,故开方得SDl l由公式可见,当各变量值愈接近均数时,标准差由公式可见,当各变量值愈接近均数时,标准差越小,当各观察值远离均数时,标准差越大,所越小,当各观察值远离均数时,标准差越大,所以标准差能说明变量值的离散程度以标准差能说明变量值的离散程度l l二、不分组资料的标准差的计算二、不分组资料的标准差的计算l l用代数的方法将上述公式简化为用代数的方法将上述公式简化为l lP27P27表表3-83-8计算实例计算实例l l三、离均差平方和的简化计算三、离均差平方和的简化计算l l离均差平方和离均差平方和sum of squares about the mean sum of squares about the mean 简简记为记为l lxxxx,即,即l l离均差平方和或离均差积和离均差平方和或离均差积和sum of productssum of products计算计算时,当原始数据比较大时,计算可以减一个数可时,当原始数据比较大时,计算可以减一个数可除一个数,进行简化。
除一个数,进行简化三条规则:1、原始数据减一个数或加一个数时,离均差平方和或积和数值不变2、原始数据除以一个数a,则简化值算出的离均差平方和要乘上一个a2才是原有的离均差平方和3、离均差积和在计算时如将两变量之一(如x),除以一个数a时,则求得之离均差积和要乘以一个a,才是原始数据的离均差积和;如y也同时除以一个数字b,则求得的离均差积和要同时乘以abl l四、分组资料的标准差计算四、分组资料的标准差计算l l公式:公式:l l计算实例见计算实例见P29P29表表3-113-11l l五、标准差的应用五、标准差的应用– –1 1、表示变量值的离散程度、表示变量值的离散程度– –2 2、概括地估计变量值的频数分布、概括地估计变量值的频数分布– –3 3、应用于求正常值范围、应用于求正常值范围normal rangenormal range– –4 4、计算标准误、计算标准误– –5 5、质量控制、质量控制l l1 1、表示变量值的离散程度、表示变量值的离散程度l l均数相近,单位相同时,标准差大表示变量值分均数相近,单位相同时,标准差大表示变量值分布较分散,反之亦然布较分散,反之亦然。
l l比较度量衡单位不同或均数相差悬殊的多组资料比较度量衡单位不同或均数相差悬殊的多组资料的变异度时,需改用变异系数的变异度时,需改用变异系数coefficient of coefficient of variationvariation,,CVCV表示标准差与均数之比表示标准差与均数之比l lP29-30P29-30例例3-73-7,,8 82、正态分布normal (Gaussian) distribution 直方图histogram:横轴表示变量值的大小,以各长方块面积代表频数,P30图3-3,当观察例数逐渐增多,组距细分时变一条光滑的曲线,形状近似正态曲线 正态曲线:呈对称的钟型,在均数处最高,两侧逐渐低下,两端在无穷远处与底线相靠正态分布的两个参数:正态总体的均数和标准差(μ和σ)通常用N(μ,σ)表示正态曲线的函数式正态曲线的函数式density functiondensity function::正态曲线下面积分布规律:正态曲线下面积分布规律:μ±σμ±σ:占全部曲线下面积的:占全部曲线下面积的68.27%68.27%μ±1.64σ:μ±1.64σ:占全部曲线下面积的占全部曲线下面积的90.90%90.90%μ±1.96σ:μ±1.96σ:占全部曲线下面积的占全部曲线下面积的95.00%95.00%μ±2.58σ:μ±2.58σ:占全部曲线下面积的占全部曲线下面积的99.00%99.00%3、正常值(参考值reference value)范围:医学上常把绝大多数(90%,95%,99%)正常人的某指标值范围称为该指标的正常值范围。
资料近似正态或经变量变换后符合正态分布时可用上述面积规律来估计95%正常值范围,偏态资料可用百分位数法正常人并非完全健康的人,而是指排除了影响所研究指标的疾病和有关因素的同质人群按实际需要确定上下限或仅上限或仅下限双侧:1.64,1.96,2.58;单侧:1.28, 1.64, 2.334 4、质量控制:为了控制实验中的检测误差,常以、质量控制:为了控制实验中的检测误差,常以均数加减均数加减2 2个标准差作为上、下警戒值,以均数加个标准差作为上、下警戒值,以均数加减减3 3个标准差作为上、下控制值个标准差作为上、下控制值5 5、标准正态分布、标准正态分布标准化变换:标准化变换:若若x x服从正态分布服从正态分布N(N(μ,σ)μ,σ),由则,由则u u服从均数为服从均数为0 0,标,标准差为准差为1 1的正态分布,称为标准正态分布的正态分布,称为标准正态分布u(u(外文外文资料用资料用z z表示表示) )称为标准正态离差称为标准正态离差the the standardized deviate (or z-value)standardized deviate (or z-value)可以借助标准正态表估计任意可以借助标准正态表估计任意(x1,x2)(x1,x2)范围内的频范围内的频数比例数比例( (附表附表3 3--1 1,标准正态分布表,标准正态分布表) )。