《卫生统计学课件:第二章 定量资料的统计描述》由会员分享,可在线阅读,更多相关《卫生统计学课件:第二章 定量资料的统计描述(58页珍藏版)》请在金锄头文库上搜索。
1、第二章第二章 定量资料的统计描述定量资料的统计描述 频数与频数分布频数与频数分布频数与频数分布频数与频数分布频数频数:某个测量值的个(例)数。频数分布表频数分布表(frequency distribution table):):又称频数表。是将原始数据值适当分组后得到各组的频数,如表2-1频数分布表。 适用样本量较大的资料进行统计描述的常用方法。通过频数表可以显示数据分布的范围与形态。 可用手工和计算机软件(如SAS、SPSS等)方便制作频数表。频数与频数分布频数与频数分布离散型定量变量的频数分布离散型定量变量的频数分布 例2-1 1998年某山区96名孕妇产前检查次数资料如下:0,3,2,0
2、,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7等共96个数值频数与频数分布频数与频数分布表2-1:96名妇女产前检查次数分布的频数分布表表2-1 1998年某地96名妇女产前检查次数分布检查次数频数频率(%)累计人数累计频率(%)(1)(2)(3)(4)(5)044.244.2177.31111.521111.52222.931313.53536.542627.16163.552324.08487.551212.596100.0合计96100频数与频数分布频数与频数分布图2-1频数与频数分布频数与频数分布连续型定量变量的频数分布连续型定量变量的频数分布 例2-2 抽样调查某地12
3、0名18岁35岁健康男性居民血清铁含量(mol/L), 将数据适当分组,计数每组的频数,根据这些数据编制成的频数分布表(表2-2)则能显示出这组数据分布的特点。 频数与频数分布频数与频数分布数据7.428.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017
4、.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121
5、.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.52频数与频数分布频数与频数分布手工编制表2-2步骤。 (1)计算全距全距(range,R),也称为极差 R = 最大值最小值 = 29.64-7.42=22.22(mol/L)(2)确定组段数与组距组段数与组距:组段数一般可在1015之间选择。组距=上限下限=R/(预计的组段数)。本例如果预计取12个组段,则组距长度约为22.22/12=1.85,取整数2。两端的组段应分别包含最小值或最大值;(3)列表列表 做出
6、如表2-2的表格,将选好的组段顺序地列在 (1)列。按照“下限x上限” 的原则确定每一例数据x应归属的组段。频数与频数分布频数与频数分布频数分布图频数分布图:在表2-2的基础上,可以绘制出图2-2,称为直方图(频率直方图)。 横轴:血清铁含量 纵轴:频率密度,即频率/组距(直条面积等于相应组段的频率)。 在组距相等时,直方图中矩形直条的高度与相应组段的频率成正比。 频数与频数分布频数与频数分布频数与频数分布频数与频数分布对称分布:频数最多的组段在中央,图2-2正偏峰分布:峰向左侧偏移的分布,右侧的组段数多于左侧,为右偏峰分布。图2-3负偏峰分布:峰向右侧偏移的分布,左侧的组段数多于右侧,称为左
7、偏峰分布。 图2-1定量变量的特征数定量变量的特征数 集中趋势统计指标集中趋势统计指标 对于连续型定量变量,描述集中趋势常用的统计量为算术均数、几何均数和中位数。算术均数:算术均数:适合描述对称分布资料的集中位适合描述对称分布资料的集中位置(也称为平均水平)。其计算公式为置(也称为平均水平)。其计算公式为 定量变量的特征数定量变量的特征数1)直接计算法:计算公式为 式中X1,X2和Xn为所有观察值,n为样本含量,(希腊字母,读作sigma)为求和的符号。定量变量的特征数定量变量的特征数例2-3 测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,
8、2.26,4.04,5.42,3.38。试求其算术均数。算术均数=(4.20+6.43+2.08+3.45+2.26+4.04+5.42+3.38)/8=3.9075 (U/L)定量变量的特征数定量变量的特征数表2-3 加权法计算均数组段组中值(XO)ffXO(1)(2)(3)(4)=(2)(3)6717893271011666121381041415121801617203401819275132021183782223122762425820026274108283029129合计1202228定量变量的特征数定量变量的特征数2)加权频数表法:计算公式为加权均数=2228/120=18.5
9、7(mol/L)直接法均数=18.61(mol/L)。定量变量的特征数定量变量的特征数几何均数(几何均数(geometric mean,G) 适用于观察值变化范围跨越多个数量级的资料。其频数图一般呈正偏峰分布。人们常用几何均数描述这类资料的集中位置。 在医学研究中常适用于免疫学的指标。其计算公式为 定量变量的特征数定量变量的特征数例2-5 7名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64, 1:64,1:128,1:512。试计算其几何均数。定量变量的特征数定量变量的特征数加权法计算几何均数。频数表资料例2-6 52例慢性肝炎患者的HBsAg滴度数据如表2-4
10、。试计算滴度的几何均数。 定量变量的特征数定量变量的特征数表2-4 52例慢性肝炎患者的HBsAg滴度资料抗体滴度频数(f)滴度倒数(X)lgXf(lgX)1:162161.204122.408241:327321.5051510.536051:6411641.8061819.867981:128131282.1072127.393731:256122562.4082428.898881:51275122.7092718.96489合计52108.06977定量变量的特征数定量变量的特征数52例慢性肝炎患者的HBsAg滴度的几何均数为1119.74705。 定量变量的特征数定量变量的特征数中位
11、数(中位数(median,M) 可用于各种分布的定量资料。中位数的原意是指在总体中有一半个体的数值低于这个数,一半个体的数值高于这个数。 奇数: 偶数: 定量变量的特征数定量变量的特征数百分位数法计算中位数百分位数法计算中位数:频数表资料频数表资料百分位数的计算公式为 式中LX、iX和fX分别为第百分位数所在组段的下限、组距和频数,fL为小于各组段的累计频数, LX为总例数。即为中位数的计算公式定量变量的特征数定量变量的特征数例2-8 试利用表2-2的频数表求例2-2中血清铁含量的中位数。从表2-2可判断出位于“18-”这个组段。将相应数据代入式(2-8)该组血清铁资料的中位数为18.74(m
12、ol/L)如果按(2-7)式计算, 结果为18.99(mol/L)。 定量变量的特征数定量变量的特征数 众数(众数(mode):):原指总体中出现机会最高的数值。样本众数则是在样本中出现次数最多的数值。 如 例2-1产前检查次数的众数为4次调和均数(调和均数(harmonic mean, H):): 先求原始数据倒数的算术均数。该算术均数的倒数便称为原数据的调和均数。定量变量的特征数定量变量的特征数其计算公式为例2-10 接受某种处理的5只小鼠生存时间(分钟)分别为49.1、60.8、63.3、 63.6和63.6,试计算其调和均数。 定量变量的特征数定量变量的特征数离散趋势统计指标离散趋势统
13、计指标 例2-11 试观察三组数据的离散状况。A组:26,28,30,32,34;B组:24,27,30,33,36;C组:26,29,30,31,34。将三组数据分别点在直线上,如图2-4所示。 定量变量的特征数定量变量的特征数 1.极差极差极差极差:一组变量值最大值与最小值之差。一组变量值最大值与最小值之差。 极差不能反映所有数据的变异大小,且受样本含量的影响较大,N大,极差值相差也大,故其稳定性较差。例2-11中三组数据的极差 A组 R=34-26=8 B组 R=36-24=12 C组 R=34-26=8定量变量的特征数定量变量的特征数2.四分位数间距四分位数间距 四分位数(quarti
14、le)是把全部变量值分为四部分的百分位数,即第1四分位数(QL=P25)、第 2四 分 位 数 ( M=P50) 、 第 3四 分 位 数(QU=P75)。四分位数间距(quartile range)是由第3四分位数和第1四分位数相减而得,记为QR。它一般和中位数一起描述偏态分布资料的分布特征。定量变量的特征数定量变量的特征数3.方差方差方差(variance)也称均方差(mean square deviation),反映一组数据的平均离散水平。离均差:每一个变量值与均数的差值,离均差平方和(sum of squares):离均差平方后相加得到的值方差:离均差平方和除以得到的值总体方差用 表示
15、定量变量的特征数定量变量的特征数方差计算公式为4、标准差、标准差:定量变量的特征数定量变量的特征数例2-14 分别计算例2-11中三组数据的标准差。 按照公式(2-11)与标准差的定义 A组 B组 C组 C组的标准差最小,B组的最大。意味着C组数据的离散趋势最小,B组的最大 定量变量的特征数定量变量的特征数 5.变异系数变异系数 变异系数(coefficient of variation)记为,多用于观察指标单位不同时的变异程度的比较。其计算公式为定量变量的特征数定量变量的特征数例2-16 通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg;身高均数为72.4cm
16、,标准差为3.0cm。试计算周岁女童身高与体重的变异系数。体重的相对变异要大于身高的相对变异 定量变量的特征数定量变量的特征数分布形态特征数分布形态特征数 描述分布形态的统计量:偏度系数与峰度系数。偏度系数偏度系数 (coefficient of skewness,SKEW) :理论上总体偏度系数为0时,分布是对称的;取正值时,分布为负偏峰;取负值时分布为正偏峰。 样本偏度系数计算公式: 定量变量的特征数定量变量的特征数峰度系数峰度系数(coefficient of kurtosis,KURT) 理论上, 正态分布的总体峰度系数为0;取负值时,其分布较正态分布的峰平阔;取正值时,其分布较正态分
17、布的峰尖峭。 样本峰度系数 常用统计图表常用统计图表 统计表统计表统计表的结构与种类统计表的结构与种类简单统计表:只包括一个分组变量,图简单统计表:只包括一个分组变量,图2-5组合表:多于一个分组变量,表组合表:多于一个分组变量,表2-5常用统计图表常用统计图表图2-5 统计表的结构常用统计图表常用统计图表表2-5 A、B两种药物在甲、乙两医院的疗效药物甲医院乙医院总计有效 无效 合计有效无效合计A40105042850100B351550331750100合计75251007525100200常用统计图表常用统计图表列表原则和要求:列表原则和要求:列表原则列表原则主要为重点突出、简单明了、主
18、谓分明、层次清楚。表结构表结构:标题:多数场合标题应包括表的编号。标题位于统计表的最上部。时间、地点标目 分为纵标目与横标目。纵标目标示相应一列(或数列)的内容;横标目标示相应的行的内容。反映主要研究事物的标目宜安排在表的左则(例如图2-5中的两种药物)。使得从左至右可以形成一句完整的叙述语句。常用统计图表常用统计图表表线 不宜太多。不允许使用竖线与斜线。表值 表中的数字一律使用阿拉伯数字。同列数据应取相同的小数位。表内不应空格。不详的数据可用“”填充。不存在的数据应以“”号标明。零值应用“0”表示。注释 一律列在表的下方,可用“*”号等符号标示。常用统计图表常用统计图表统计图统计图 医学文献
19、与报告中常用的统计图主要有直条图、百分条图、圆图、线图、半对数线图、直方图等。使用计算机与相应的软件(如Excel)可以方便地绘制出各种统计图。常用统计图表常用统计图表制图的基本要求如下制图的基本要求如下:选用图形:按照资料的性质与分析目的。 标题:扼要说明统计图内容,位于图的正下方。图例:图例位于图形与标题之间,对图中的不同事物应通过不同的图案或颜色加以区别。 坐标统计图(如直条图、线图等),横轴的方向应自左至右;纵轴的方向应自下而上。横轴与纵轴均应有标目。表示量的数轴应标注合适的原点、尺度、单位;统计图的轮廓以高:宽=5:7为宜。常用统计图表常用统计图表直条图(直条图(bar graph)
20、: 用等宽直条的长度来表达参与比较的指标的大小,条图的数值轴(常用纵轴)尺度必须从零点起标示 单式(图2-6,根据表2-6数据绘制) 复式(图2-7,根据表2-7数据绘制)常用统计图表常用统计图表常用统计图表常用统计图表常用统计图表常用统计图表百分条图(百分条图(percent bar graph): 用于表达各组成部分在全体中的比重。 例如,根据表2-8 的数据可绘制图2-9。图中两个长条均表示100%。以脱落牙为例,整个长条分为四个部分,它们的长度分别对应于四种再植效果在全部再植牙中所占的比重。各部分的排列视需要确定。 百分条图可以将多组数据排列在一起便于比较 常用统计图表常用统计图表常用
21、统计图表常用统计图表圆图(圆图(circle graph): 用同一圆形中的扇形的弧度表示全体中各部分所占的比重。所以其用途与百分条图相同。图2-10是根据表2-8中部分数据绘制的圆图。 多组数据作对比,圆图的效果不如百分条图。 常用统计图表常用统计图表 图2-10 脱落牙再植效果常用统计图表常用统计图表线图(线图(line graph) :在直角坐标系中用线段的升降表达一事物的量随另一事物的量变化的趋势,或某事物的量随时间变化的过程。 普通线图的纵、横坐标均为算术尺度。图2-11是根据表2-9的数据绘制的线图。常用统计图表常用统计图表常用统计图表常用统计图表半对数线图(半对数线图(semi-
22、logarithmic line graph): 其纵轴取对数尺度,横轴取算术尺度。适用于表达事物之间相对变化速度的比较。 图2-12是根据表2-9的数据绘制的半对数线图。前面的图2-11给出的印象是从1975年到1990年痢疾的死亡率下降得较快。图2-12则显示出百日咳死亡率下降的相对速度比痢疾要快一些。在指标间数量级相差较大时这种情况需要注意。 常用统计图表常用统计图表常用统计图表常用统计图表直方图(直方图(histogram):用于表示连续性定量变量的频数分布或频率分布。通常用横轴表示变量,用纵轴表示频数与组距的比例。在取相等组距的时候,各组段上的矩形的高与该组段的频数成正比。图2-2与
23、图2-3都是直方图的例子。绘制直方图也应注意纵轴要从零点起标示。横轴一般以取相等组距为宜。 常用统计图表常用统计图表箱式图(箱式图(box plot): 用于多组数据的直观比较分析。一般选用五个描述统计量(最小值、P25、中位数、P75、最大值)来绘制。图2-13显示两组试验动物每日进食量的比较。常用统计图表常用统计图表小结1. 为了解定量变量的分布规律,可编制频数表并绘制频数分布(或频率分布)图,用于描述资料的分布特征(集中趋势与离散趋势),以及分布类型(对称或偏峰)2. 描述性统计量可以用来定量地刻画统计分布的特征。常用的描述性统计量有三类:描述集中趋势的算术均数、几何均数、中位数;描述离散趋势的极差、四分位数间距、方差、标准差和变异系数;描述分布类型的偏度系数与峰度系数。3. 百分位数是一种位置参数,既可用来描述集中趋势(P50),又可用来描述离散趋势(P75-P25)。可用于各种连续型分布。