卫 生 统 计 学预防医学教研室: 徐 谦办公地点: 大学城基础医学院六楼 第第 二二 章章 定定 量量 资资 料料 的的 统统 计计 描描 述述v统计描述:从统计资料中获取信息最基本的方法v意义:通过统计描述可以了解研究对象(某项变量)的基本特征,为进一步的统计分析打下基础定量资料的统计描述方法:v1、统计图表:主要为频数分布表,可直观地描述数据的特征,但缺乏准确性v 2、统计指标:集中趋势、离散趋势的指标,可准确地描述一组数据的特征第一节第一节 频数与频数分布频数与频数分布Ø(1)离散型定量变量的频数分布Ø(2)连续型定量变量的频数分布(1)离散型定量变量的频数分布v例2-1 1998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,…,4,7v表2—1是96名妇女产前检查次数分布的频数分布表v根据表2-1绘制的图2-1称为直条图(bar chart)v横坐标:产前检查次数;v纵坐标:频率,即产前检查k次的妇女在被统计妇女中所占的比例(%)。
v图中等宽矩形长条的高度与相应检查次数的频率呈正比二、连续性定量变量的频数分布 (1)找最大值和最小值,求全距R (range) 全距=最大值- 最小值 本例 R = 29.64 - 7.42 = 22.22(2)定组数,求组距:当n<100,一般定8~ 10个组,当n≥ 100,定10 ~15个组,本例 n=120,定12组 组距 (i)= R / 组数, 组距:取整数且每组的组数应相等 本例 I = 22.22 / 12 = 1.85,取整数2编 制 频 数 分 布 表v(4)列组段:第一组段应包括最小值,如:6~;最后一组段应把最大值包括在内,并列出该组段 的上限值,如:28~30; v(5)列表: 按照“下限≤ x <上限”即每组段均为半开半闭区间[ )统计各组段 频数、频率累计频数、累计频率绘制直方图v纵轴为频率密度:即频率/组距v直条面积=组段X频率密度v =相应组段的频率图2-2 120例健康成年男子血清铁含量(μmol/L)分布(频率密度=频率/组距)又如:vXYZ大学100个男同学身高的频数分布(记录至最近的英寸) 。
第一组由60~62英寸的身高构成,用符号60-62表示由于有5个学生的身高属于这一组,因此这一组的组频数是5v在上述频数分布中,经过整理和汇总的数据称为分类资料尽管在归组过程中数据的许多最初细节已被改变,然而我们却对数据的整体情况有了清楚的了解,而且数据之间的相互关系也一目了然组界v如果身高记录至最近的英寸,那么组距60~62理论上包括了从59.5000到62.5000英寸的所有测量值.这些数简单地记为精确数59.5和62.5,并称为组界或真实组限,其中较小的数(59.5)称为下组界,较大的数(62.5)称为上组界组距的大小或宽度v组距的大小或宽度是上下组界的差,也常称为组宽.如果一个频数分布的所有组距都有同样的宽度,那么这个共同的宽度用f来表示.在这种情况下,f等于2个连续下组界或2个连续上组界的差v在表2.1中,c=62.5-59.5=65.5-62.5=3.组中值v组中值是组距的中点,可以由上下组限的和除以2得到.因此,60~62的组中值为(60+62)/2=61.组中值也称为组中点v为了深入地进行数学研究,我们常假定一个给定组距的所有观察值都与组中值是一致的. 因此,组距60~62英寸中所有身高都视为61英寸。
1998年100名18岁健康女大学生身高的频数分布身高组段(1)划记频数 f (2) 154~112156~11114158~11111,11111,111160~11111,11111,11113162~11111,11111,11111,11111,1122164~11111,11111,11111,111119166~11111,11111,1111115168~11111,11119170~11114172~17411合 计100频数分布表的用途:频数分布表的用途:☆揭示资料的分布类型;☆反映出频数分布的两个重要特性:☆ (1)集中趋势☆ (2)离散趋势☆可发现特大或特小的可疑值;☆便于进一步计算统计指标、统计处理 第二节第二节 定量变量的特征数定量变量的特征数用统计指标定量地描述:集中趋势(同质)离散趋势(变异)是统计描述的重要内容 集中趋势的描述集中趋势的描述 用平均数表示,包括 1 算术均数 mean, 2 几何均数 geometric mean,G 3 中位数 median, M 4 众数 mode 5 调和均数 harmonic mean, H1.1.算术平均数算术平均数((均数均数,arithmetic mean))v意义:描述对称分布资料的集中位置。
v表示: 总体: [ mu ] ;样本v计算:直接法、间接法、计算机v特征: ∑(X- )=0 估计误差之和为0v应用:正态分布或近似正态分布v注意:合理分组,才能求均数,否则没有意义均数计算法——直接法n<30, 将各观察值相加,再除以观察例数,即得均数计算公式: = (X1+X2+X3+…Xn)/n =∑X/n均数计算法——加权法式式 中中:: f1、f2、…、fn为各组段的频数; X1、X2、…、Xn为各组段的组中值 公公 式式::组中值:( 本组段下限+组段上限) / 2 如:组中值=(6+8)/ 2=72. 2. 几几 何何 均均 数数 ((geometric mean,,G)v意义:适用于数据分布不对称,观察值变化范围跨越多个数量级的资料v表示:Gv适用条件:对数正态分布资料 v计算: 直接计算法v 频数表法(1)直 接 计 算 法或式中,X1、X2、…Xn分别为各变量值, n为变量值个数。
公公 式:式:(2)频 数 表 法式中:f 为频数(或相同变量值的个数), X为各变量值当变量值个数较多时,可先编制频数分布表,用频数表计算几何均数3.中 位 数 ( median,M)v中位数:将一组观察值按大小顺序依次排序,位于中间位置的那个数值,它是一种位置指标v适用条件:应用范围较广,适合于任何分布的定量数据:v正态分布资料:中位数就是算术平均数;偏态分布资料:用中位数表示它们的集中趋势 更合理表示: M计算: (1)直接计算法 (2) 频数表法((1)直)直 接接 法法 ①当当n为奇数时为奇数时 ,变量值按大小次序排序后,变量值按大小次序排序后,②当当n为偶数时为偶数时,特点:仅仅利用了中间的1~2个数据例2-7v某药厂观察9只小鼠口服高山红景天醇提物(RSAE)后在乏氧条件下的生存时间如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,68.6,69.0试求其中位数v本例n=9为奇数,v故M=63.6例如:现有某病患者8人的潜伏期依此为5、6、8、9、11、11、13、>16天,计算平均潜伏期。
本例 n=8为偶数(天)即8例某病患者平均潜伏期为10天1、求数列1、3、4、9的中位数2、求数列1、5、9、11、20的中位数3、求数列8、-3、5、0、1、4、-1的中位数4、求数列4、1、8、2、10、12的中位数5、某病患者8人的潜伏期为2、3、3、3、4、5、6、30,则平均潜伏期为:A 均数7天,很好地代表了大多数的潜伏期B 中位数为3天C 中位数为4天D 中位数为3.5天,不受个别人的潜伏期的影响(2)频数表法——百分位数计算中位数公公 式式: L ——欲求的百分位数所在组段的下限 I ——所在组段的组距 f ——所在组段的频数 ——所在组段之前各组段的累计频数 n——合计频数中位数就是第中位数就是第50位百分位数,式位百分位数,式 中:中:4、 众数(mode):样本众数:为样本中出现次数最多的数值在频数分布图中对应于高峰所在位置的观察值适用于大样本;较粗糙试问下列两组数据的众数分别是多少? (1)2、2、3、3、4、4 (2)3、3、3、3、3 5、调和均数(harmonic mean, H)原始数据倒数的算术均数原始数据的大小相差越悬殊,调和均数的“调和”作用就越为明显例2-10v接受某种处理的5只小鼠生存时间分别为49.1、 60.8 、63.3 、63.6 和63.6.试计算其调和均数。
于是,5只小鼠生存时间的调和均数为:向原数据中最小的49.1倾斜,“调和”作用可见一斑分布类型正态分布:均数=中位数非正态分布偏态分布多峰分布正偏态负偏态 负偏态 即右偏态(集中位置偏右),均数<中位数正偏态即左偏态(集中位置偏左),均数>中位数正态分布:中间高、正态分布:中间高、两边低、左右对称两边低、左右对称正偏态分布:正偏态分布:长尾向长尾向右右延伸延伸负偏态分布:负偏态分布:长尾向长尾向左左延伸延伸均数、中位数、众数三者关系均数、中位数、众数三者关系正态分布: 均数=中位数=众数均数=中位数=众数正偏态分布:均数均数> >中位数中位数> >众数众数负偏态分布:均数均数< <中位数中位数< <众数众数二、描述离散趋势的特征数如三组同年龄、同性别儿童体重(kg) 甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34 集中趋势: 三组数据间的疏密不齐的程度(离散程度)不同离离 散散 趋趋 势势v定定 义:义:v各个体变量值间的差异。
描述同质条件下,一组计量资料观察值之间参差不齐的程度,即离散程度或变异度v指指 标标 全距和四分位数间距 方差 标准差 变异系数 (1).极差(全 距)(range)v定定 义义:一组变量值中最大值与最小值之差v单单 位位:与原变量值相同v意意 义义:极差越大,变异度越大,各变量值离均数越远,数据越分散,均数的代表性越差例如v甲:3,4,5,6,7 全距=7-3=4v乙:1,3,5,7,9 全距=9-1=8v说明乙组的离散程度大,乙组均数的代表性较甲组为差全距:最简单的离散趋势指标全距:最简单的离散趋势指标v应应 用用:传染病和食物中毒的最短、最长潜伏期等v全距反映变异度,它较为粗略全距反映变异度,它较为粗略:(1)除了最大和最小值外,不能反映其他数据的变异度v(2)当样本含量不同时,样本含量越大,遇到较大或较小极端值的机会就加大,全距可能越大,故样本含量悬殊时不宜比较其全距v(3)即使样本含量不变,全距的抽样误差亦较大(2) 四分位数间距(interquartile range)v四分位数四分位数:特定的百分位数v表示表示: QvQL:下四分位数,即第25百分位数vQu:上四分位数间距,即第75百分位数v四分位数间距四分位数间距: Qu -QLP100(max)P75P50(中位数中位数)P25P0(min)意意 义义 和和 应应 用用v意义意义:数值越大,说明变异度越大;反之,变异度越小。
v应用:适于于各种分布的资料,特别适用于描述偏态分布资料的变异度,没有考虑每个观察值的变异情况;常把中位数和四分位数间距结合起来描述集中趋势和离散趋势例例1::有人根据某种沙门菌食物中毒患者有人根据某种沙门菌食物中毒患者 164164例的潜伏期资料,用百分位数法求得潜例的潜伏期资料,用百分位数法求得潜伏期的单测伏期的单测95%95%上限为上限为57.857.8小时,其含义是:小时,其含义是:A.A.大约有大约有9595人的潜伏期小于人的潜伏期小于57.857.8小时小时B.B.大约有大约有6969人的潜伏期大于人的潜伏期大于57.857.8小时小时C.C.大约有大约有5 5人的潜伏期小于人的潜伏期小于57.857.8小时小时D.D.大约有大约有8 8人的潜伏期大于人的潜伏期大于57.857.8小时小时答案答案答案为答案为D D164×95%=155.8即156(人)164—156=8(人)(3) 方 差引 入 “方 差” 的 思 想 基 础 (一)均(一)均 差差v 全距和四分位数间距:只是两点之间的距离,没有利用每个变量值的信息。
v集中趋势指标:利用每个观察值的信息计算均数v为了反映变异度,有人将每个观察值与均数之差的绝对值相加,然后平均——均差v 均差=v反映资料的变异度,就像地球上的所有高度都和海平面去比一样例 如v甲组:10,11,12,13,14v乙组: 9, 12,12,13,14v均数:12v :6v均差:6/5(二)离均差平方和v公公 式式:v优优 点点:v (1)较均差灵敏;v(2)考虑了总体中每个变量值X与总体均数μ之差 离均差 ;v——差值越大,平方后增大的越多,所以离均差稍有变化,就能从特征值上反映出来例 如v甲组:10,11,12,13,14v乙组: 9, 12,12,13,14v甲组离均差平方和:10v乙组离均差平方和:14v乙组的变异度大于甲组用离均差平方和组成的变异指标方 差方 差 的 计 算v影响离均差平方和大小的因素:变异度v 变量值的个数Nv当两总体的变异度相同时,N大则 亦大,为了消除影响,取其均值。
v方差的计算公式:v在实际工作中,常用样本方差代替总体方差(4)标 准 差 (standard (standard deviationdeviation,,S) S) v由于方差中的各个离均差都经过平方,原来的度量单位都变成了平方单位而使用不方便,所以表示数据离散程度时,常不用方差,而用标准差意 义:v标准差越大,数据分布离散程度越大v标准差适合用来表达对称分布的离散趋势标准差的计算公式v总体标准差:v样本标准差:自 由 度v意义:随机变量值能“自由”取值的个数v表示:V=n-1v V : [nju]标准差的计算v1.直直 接接 法法式 中:X为各变量值,n为样本含量2.加 权 法式中:f 为各组段的频数,X为各组段的组中值公公 式式::(5)变 异 系 数(coefficient of variation,CV)v定定 义义:变异系数亦称离散系数,是标准差与均数之比,用百分数表示v计算公式计算公式: CV=v特特 点点:变异系数与全距、标准差不同,是相对比,没有单位,更便于资料间的分析比较v意意 义:义:表示一组变量值的离散度。
表示一组变量值的离散度变 异 系 数 的 运 用v比较度量衡单位不同的多组资料的变异度:v比较均数相差悬殊的多组资料的变异度v做相同时间不同指标的横向比较 某地不同年龄儿童身高(某地不同年龄儿童身高(CV)变异度)变异度 年龄组 人数 均数 标准差 变异系数1~2月 100 56.3 2.1 3.75~ 6月 120 66.5 2.2 3.33~3.5岁 300 96.1 3.1 3.25~5.5岁 400 107.8 3.3 3.1例例、、某某地地测测得得男男孩孩出出生生体体重重均均数数=3.5kg=3.5kg,,标标准准差差S S1 1=0.44=0.44 k kg g;;1818岁岁男男学学生生体体重重均均数数=56.10kg =56.10kg , , 标标准准差差S S2 2=5.50=5.50 k kg g 。
问问男男孩孩出出生生体体重重与与1818岁岁男男学学生生体体重重相相比比,,哪哪一一个个离离散散度度更大?更大? 答案答案答案:答案: 新新生生儿儿较较大大,,计计算算各各自自的的CV值值,,新新生生儿为儿为0.125,男学生为,男学生为0.098四、描述分布形态的特征数四、描述分布形态的特征数描述分布形态的统计量: 偏度系数 (SKEW) 峰度系数(KURT)1、偏度系数(coefficient of skewness, SKEW)理论上总体偏度系数为0时,分布是对称的;取正值时,分布为正偏峰;取负值时,分布为负偏峰;2、峰度系数、峰度系数((coefficient of kurtosis, KURT)理论上,正态分布的总体峰度系数为0;取正值时,其分布较正态分布的峰尖峭;取负值时,其分布较正态分布的峰平阔; a. 尖峭峰尖峭峰 b.正态峰正态峰c.平阔峰平阔峰小结:v一、频数分布图、分布表:一、频数分布图、分布表: 全面全面-直观直观-具体地反映个体分布规律具体地反映个体分布规律v二、平均水平指标:二、平均水平指标: 1. 均数:总和均数:总和∕例数,适用于正态资料例数,适用于正态资料 2. 几何均数:实质是均数,对数值均数反对几何均数:实质是均数,对数值均数反对数还原,适用于对数正态分布资料数还原,适用于对数正态分布资料 3. 中位数:分布中心位置,适用于偏态、未中位数:分布中心位置,适用于偏态、未知分布资料知分布资料 三、离散程度指标三、离散程度指标v1. 全距全距(极差极差):简便但极不稳健:简便但极不稳健(研究结论变研究结论变化大化大),适用于小样本偏态资料,如潜伏期,适用于小样本偏态资料,如潜伏期 2. 四分位数间距:较全距稳健,适用于一四分位数间距:较全距稳健,适用于一般的偏态资料般的偏态资料 3. 方差或标准差:最稳健,适用于正态资方差或标准差:最稳健,适用于正态资料料四、数据特征的描述四、数据特征的描述v 集中趋势 离散趋势正态资料 均数 标准差 偏态资料 中位数 四分位数间距呈倍数关系 几何均数第五节统计内容的报告与中英文表达v定量资料的统计描述主要报告资料的集中趋势和离散趋势的统计指标,箱式图也常用于定量资料的统计描述。
v例2-2中,某地抽样调查来了120名18-35岁健康男性居民的血清铁含量,得到均数±标准差为18.61±4.34(μ mol/L)v例2-8给出了50例链球菌咽峡炎患者潜伏期的频率分布表据此估计了潜伏期的中位数和四分位数间距,分别为49.09和(36.82-72.20)小时。