《二章计量资料的统计描述》由会员分享,可在线阅读,更多相关《二章计量资料的统计描述(44页珍藏版)》请在金锄头文库上搜索。
1、第二章第二章 计量资料的统计描述计量资料的统计描述(1 1)2012201220122012级硕士研究生级硕士研究生级硕士研究生级硕士研究生医学统计学医学统计学医学统计学医学统计学军事预防医学系卫生统计学教研室军事预防医学系卫生统计学教研室军事预防医学系卫生统计学教研室军事预防医学系卫生统计学教研室 张玉海张玉海张玉海张玉海一、频数表(一、频数表(一、频数表(一、频数表(frequency tablefrequency table)对于一组数据,要了解它的分布范围、数量对于一组数据,要了解它的分布范围、数量对于一组数据,要了解它的分布范围、数量对于一组数据,要了解它的分布范围、数量最集中的区间
2、以及分布的形态,可以通过编制频最集中的区间以及分布的形态,可以通过编制频最集中的区间以及分布的形态,可以通过编制频最集中的区间以及分布的形态,可以通过编制频数表来实现。数表来实现。数表来实现。数表来实现。第一节第一节 频数分布频数分布 例例例例2-12-12-12-1 从某单位从某单位19991999年的职工体检资料中获得年的职工体检资料中获得101101名正常成年女子的血清总胆固醇(名正常成年女子的血清总胆固醇(mmol/L)的测)的测量结果如下,试编制频数分布表。量结果如下,试编制频数分布表。 1 1 1 1求极差(求极差(求极差(求极差(rangerange): : 极差也称全距,即最大
3、值极差也称全距,即最大值极差也称全距,即最大值极差也称全距,即最大值(maximum)(maximum)和最小和最小和最小和最小值值值值(m(minimuminimum) )之差,记作之差,记作之差,记作之差,记作R R。 2 2确定组距(确定组距(确定组距(确定组距(i i) : :组段数通常取组组段数通常取组组段数通常取组组段数通常取组 10-1510-15组组组组3 3写组段:写组段:写组段:写组段:组下限(组下限(组下限(组下限(L L):每个组段的起点):每个组段的起点):每个组段的起点):每个组段的起点组上限(组上限(组上限(组上限(U U):每个组段的终点):每个组段的终点):每
4、个组段的终点):每个组段的终点- 第第1 1组段组段 2.302.30 第第2 2组段组段 2.602.60 第第3 3组段组段 2.902.90 第第1212组段组段 5.605.605.905.90 - 4 4分组段划记并统计频数,逐一划记分组段划记并统计频数,逐一划记分组段划记并统计频数,逐一划记分组段划记并统计频数,逐一划记 101101名正常成年女子的血清总胆固醇频数分布名正常成年女子的血清总胆固醇频数分布名正常成年女子的血清总胆固醇频数分布名正常成年女子的血清总胆固醇频数分布 二、频数分布图二、频数分布图二、频数分布图二、频数分布图三、频数表和频数分布图用途三、频数表和频数分布图用
5、途三、频数表和频数分布图用途三、频数表和频数分布图用途1 1 1 1描述频数分布的类型描述频数分布的类型描述频数分布的类型描述频数分布的类型 (1 1 1 1)对称分布)对称分布)对称分布)对称分布 :若各组:若各组:若各组:若各组段的频数以频数最多的段的频数以频数最多的段的频数以频数最多的段的频数以频数最多的组段为中心左右两侧大组段为中心左右两侧大组段为中心左右两侧大组段为中心左右两侧大体对称,就认为该资料体对称,就认为该资料体对称,就认为该资料体对称,就认为该资料是对称分布是对称分布是对称分布是对称分布 (2 2 2 2)偏态分布:)偏态分布:)偏态分布:)偏态分布: 右偏态分布(正偏态分
6、右偏态分布(正偏态分右偏态分布(正偏态分右偏态分布(正偏态分布):右侧的组段数多于左布):右侧的组段数多于左布):右侧的组段数多于左布):右侧的组段数多于左侧的组段数,频数向右侧拖侧的组段数,频数向右侧拖侧的组段数,频数向右侧拖侧的组段数,频数向右侧拖尾。尾。尾。尾。 (2 2 2 2)偏态分布:)偏态分布:)偏态分布:)偏态分布:左左左左偏偏偏偏态态态态分分分分布布布布(负负负负偏偏偏偏态态态态分分分分布布布布): 左左左左侧侧侧侧的的的的组组组组段段段段数数数数多多多多于于于于右右右右侧侧侧侧的的的的组组组组段段段段数数数数,频数向左侧拖尾。频数向左侧拖尾。频数向左侧拖尾。频数向左侧拖尾。
7、 2 2 2 2描述频数分布的特征描述频数分布的特征描述频数分布的特征描述频数分布的特征变异的范围:变异的范围:变异的范围:变异的范围:2.305.90 2.305.90 (mmolmmol/L /L )数数数数据据据据分分分分布布布布的的的的集集集集中中中中位位位位置置置置,数数数数据据据据主主主主要要要要集集集集中中中中在在在在3.504.70 3.504.70 (mmolmmol/L /L )之之之之间间间间,尤尤尤尤以以以以组组组组段段段段的的的的人人人人数数数数3.804.10 3.804.10 (mmolmmol/L /L )最多,且左右基本对称。)最多,且左右基本对称。)最多,且
8、左右基本对称。)最多,且左右基本对称。 3 3 3 3便于发现一些特大或特小的可疑值便于发现一些特大或特小的可疑值便于发现一些特大或特小的可疑值便于发现一些特大或特小的可疑值4 4 4 4便于进一步做统计分析和处理便于进一步做统计分析和处理便于进一步做统计分析和处理便于进一步做统计分析和处理 统计上使用平均数(统计上使用平均数(统计上使用平均数(统计上使用平均数(averageaverage)这一指标体系)这一指标体系)这一指标体系)这一指标体系来描述一组变量值的来描述一组变量值的来描述一组变量值的来描述一组变量值的集中位置集中位置集中位置集中位置或或或或平均水平平均水平平均水平平均水平。常用
9、的平均数有常用的平均数有常用的平均数有常用的平均数有: : : :uu算术均数算术均数算术均数算术均数(meanmean)uu几何均数几何均数几何均数几何均数(geometric meangeometric mean)uu中位数(中位数(中位数(中位数(medianmedian) 第二节第二节 集中趋势的描述集中趋势的描述一、算术均数一、算术均数一、算术均数一、算术均数(meanmean)简简简简称称称称均均均均数数数数,可可可可用用用用于于于于反反反反映映映映一一一一组组组组呈呈呈呈对对对对称称称称分分分分布布布布的的的的变变变变量量量量值值值值在在在在数数数数量量量量上上上上的的的的平平平
10、平均均均均水水水水平平平平或或或或者者者者说说说说是是是是集集集集中中中中位位位位置置置置的特征值。的特征值。的特征值。的特征值。 适用条件适用条件适用条件适用条件:算数均数适用于:算数均数适用于:算数均数适用于:算数均数适用于对称分布对称分布对称分布对称分布,特别,特别,特别,特别是是是是正态分布正态分布正态分布正态分布资料。资料。资料。资料。算术均数的计算方法算术均数的计算方法算术均数的计算方法算术均数的计算方法(1 1 1 1)直接计算法)直接计算法)直接计算法)直接计算法例例例例 用直接法计算用直接法计算用直接法计算用直接法计算101101101101名正常成年女子的血清总胆固醇的均数
11、。名正常成年女子的血清总胆固醇的均数。名正常成年女子的血清总胆固醇的均数。名正常成年女子的血清总胆固醇的均数。(2 2 2 2)加权法)加权法)加权法)加权法( ( ( (利用频数表)利用频数表)利用频数表)利用频数表)二、几何均数二、几何均数二、几何均数二、几何均数(geometric meangeometric mean)用于反映一组经对数转换后呈对称分布用于反映一组经对数转换后呈对称分布用于反映一组经对数转换后呈对称分布用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平,在医学研究的变量值在数量上的平均水平,在医学研究的变量值在数量上的平均水平,在医学研究的变量值在数量上的平均
12、水平,在医学研究中常适用于中常适用于中常适用于中常适用于免疫学的指标免疫学的指标免疫学的指标免疫学的指标。 适用条件适用条件适用条件适用条件:适用于:适用于:适用于:适用于成等比级数成等比级数成等比级数成等比级数的资料,特别的资料,特别的资料,特别的资料,特别是是是是对数正态分布资料对数正态分布资料对数正态分布资料对数正态分布资料(一种右偏态分布)。(一种右偏态分布)。(一种右偏态分布)。(一种右偏态分布)。几何均数的计算方法几何均数的计算方法几何均数的计算方法几何均数的计算方法(1 1 1 1)直接计算法)直接计算法)直接计算法)直接计算法例例例例 某地某地某地某地5 5 5 5例微丝蚴血症
13、患者治疗七年后用间接荧例微丝蚴血症患者治疗七年后用间接荧例微丝蚴血症患者治疗七年后用间接荧例微丝蚴血症患者治疗七年后用间接荧光抗体试验测得其抗体滴度倒数分别为:光抗体试验测得其抗体滴度倒数分别为:光抗体试验测得其抗体滴度倒数分别为:光抗体试验测得其抗体滴度倒数分别为:1010,2020,4040,4040,160160,求几何均数。求几何均数。求几何均数。求几何均数。 例例例例 69696969例类风湿关节炎例类风湿关节炎例类风湿关节炎例类风湿关节炎(RARA)患者血清患者血清患者血清患者血清EBV-VCA-EBV-VCA-lgGlgG抗抗抗抗体滴度的分布见表,求其平均抗体滴度。体滴度的分布见
14、表,求其平均抗体滴度。体滴度的分布见表,求其平均抗体滴度。体滴度的分布见表,求其平均抗体滴度。(2 2 2 2)加权法(频数表资料)加权法(频数表资料)加权法(频数表资料)加权法(频数表资料)三、中位数与百分位数三、中位数与百分位数三、中位数与百分位数三、中位数与百分位数例:例:例:例:大鼠存活天数:大鼠存活天数:大鼠存活天数:大鼠存活天数:4 4,1010,7 7,5050,3 3,1515,2 2,9 9,1313,6060,6060平均存活天数平均存活天数平均存活天数平均存活天数? ? ? ?(一)中位数(一)中位数(一)中位数(一)中位数(medianmedian) 是将是将是将是将n
15、 n个变量值从小到大排列,位置居于个变量值从小到大排列,位置居于个变量值从小到大排列,位置居于个变量值从小到大排列,位置居于中间的那个变量值。中间的那个变量值。中间的那个变量值。中间的那个变量值。适用条件:适用条件:适用条件:适用条件:1.1.1.1.适用于各种分布类型的资料适用于各种分布类型的资料适用于各种分布类型的资料适用于各种分布类型的资料2.2.2.2.特别适合特别适合特别适合特别适合大样本偏态分布大样本偏态分布大样本偏态分布大样本偏态分布资料或者资料或者资料或者资料或者一端或两端一端或两端一端或两端一端或两端无确切数值无确切数值无确切数值无确切数值的资料。的资料。的资料。的资料。 中
16、位数的计算中位数的计算中位数的计算中位数的计算n n为奇数时为奇数时为奇数时为奇数时n n为偶数时为偶数时为偶数时为偶数时 例例例例 7 7名病人患某病的潜伏期分别为名病人患某病的潜伏期分别为名病人患某病的潜伏期分别为名病人患某病的潜伏期分别为2 2,3 3,4 4,5 5,6 6,9 9,1616天,天,天,天,求其中位数。求其中位数。求其中位数。求其中位数。本例本例本例本例n n=7,=7,为奇数为奇数为奇数为奇数 例例例例 8 8名患者食物中毒的潜伏期分别为名患者食物中毒的潜伏期分别为名患者食物中毒的潜伏期分别为名患者食物中毒的潜伏期分别为1 1,2 2,2 2,3 3,5 5,8 8,
17、1515,2424小时,小时,小时,小时,求其中位数。求其中位数。求其中位数。求其中位数。 本例本例本例本例n n=8, =8, 为偶数为偶数为偶数为偶数(二)百分位数(二)百分位数(二)百分位数(二)百分位数(percentilepercentile) 百分位数是一种位置指标,用百分位数是一种位置指标,用百分位数是一种位置指标,用百分位数是一种位置指标,用 P PX X 来表示。来表示。来表示。来表示。一个百分位数一个百分位数一个百分位数一个百分位数 P PX X 将全部变量值分为两部分,在将全部变量值分为两部分,在将全部变量值分为两部分,在将全部变量值分为两部分,在全部变量值中全部变量值中
18、全部变量值中全部变量值中( ( ( (不包含不包含不包含不包含 P PX X ),),),),有有有有 X%X% 的变量值的变量值的变量值的变量值比它小,有比它小,有比它小,有比它小,有(100-X100-X)% 变量值比它大。变量值比它大。变量值比它大。变量值比它大。 l当当当当 为整数时:为整数时:为整数时:为整数时:l当当当当 为带有小数位时:为带有小数位时:为带有小数位时:为带有小数位时:1 1 1 1计算方法计算方法计算方法计算方法 设有设有设有设有n n个原始数据从小到大排列个原始数据从小到大排列个原始数据从小到大排列个原始数据从小到大排列, , , , 第第第第X X百分位数百分
19、位数百分位数百分位数的一种近似计算公式为:的一种近似计算公式为:的一种近似计算公式为:的一种近似计算公式为:(1)第)第5百分数:百分数:n=120, ,为整数:,为整数: 例例 对某医院对某医院120120名细菌性痢疾治愈者的住院天数统名细菌性痢疾治愈者的住院天数统计,试求计,试求第第5 5百分位数和百分位数和第第9999百分位数。百分位数。住院天数:住院天数:序号:序号:(2 2)第)第9999百分位数:百分位数:住院天数:住院天数:序号:序号:带有小数,故取整后带有小数,故取整后trunc(118.8)= 118= 118Valid有效观察值有效观察值(人流次数人流次数)Frequenc
20、y频数频数Cumulative Frequency(累计频数累计频数)Cumulative Percent累计百分比累计百分比(累计频率累计频率)040240235.8133073265.2223296485.83118108296.3427110998.8511112099.7631123100.0 Total1123 2.2.2.2.离散变量百分位数离散变量百分位数离散变量百分位数离散变量百分位数 例例 产后出血的产妇中平均有几次人工流产史产后出血的产妇中平均有几次人工流产史? ?第三节第三节 离散趋势的描述离散趋势的描述描述数据变异大小的常用统计指标:描述数据变异大小的常用统计指标:u极
21、差极差u四分位数间距四分位数间距u方差与标准差方差与标准差u变异系数变异系数一、一、极差极差(Range)即一组变量值的最大值与最小值之差。即一组变量值的最大值与最小值之差。例例 三组同龄男孩的身高值三组同龄男孩的身高值(cm)(cm) 二、四分位数间距二、四分位数间距二、四分位数间距二、四分位数间距(Quartile RangeQuartile Range)四分位数四分位数四分位数四分位数(quartilequartile)就是把全部变量值分就是把全部变量值分就是把全部变量值分就是把全部变量值分为四部分的分位数。为四部分的分位数。为四部分的分位数。为四部分的分位数。 , , , , ,QR=
22、四分位间距:四分位间距:四分位间距:四分位间距: 例例已知已知 =67.7=67.7, =39.2=39.2,计算计算118118名链球菌咽喉炎患者潜伏期的四分位数间距。名链球菌咽喉炎患者潜伏期的四分位数间距。 四分位数间距可以看成居中的一半变量值的极四分位数间距可以看成居中的一半变量值的极差差( (数据两端各去除了数据两端各去除了25%25%的数据的数据) )。可表示为。可表示为 QR=28.5(39.267.7)天。天。样本方差样本方差三、方差与标准差三、方差与标准差 1. 1.方差方差(variance)也称均方差也称均方差,反映一组数据的平反映一组数据的平均离散水平。均离散水平。 总体
23、方差总体方差 2. 2.标准差标准差(standard deviation, SD)样本标准差样本标准差 总体标准差总体标准差 样本标准差的公式还可以写成样本标准差的公式还可以写成 :利用频数表计算样本标准差的公式为利用频数表计算样本标准差的公式为: : 例例 计算例计算例2-12-1方法中方法中101101名正常成年女子的血清名正常成年女子的血清总胆固醇的标准差。总胆固醇的标准差。1.1.直接计算法直接计算法 2.2.频数表法频数表法四、变异系数四、变异系数(coefficient of variation, CV)主要用途主要用途: : 1. 1.观察值度量单位不同时变异大小的比较,如观察值度量单位不同时变异大小的比较,如身高与体重变异程度的比较;身高与体重变异程度的比较; 2.2.均数相差较大时,如儿童身高与成人身高变均数相差较大时,如儿童身高与成人身高变异程度的比较;异程度的比较; 例例某地某地7岁男孩身高的均数为岁男孩身高的均数为123.10cm,标准,标准差为差为4.71cm;体重均数为;体重均数为22.59kg,标准差为,标准差为2.26kg,比较其变异度?比较其变异度? 身高身高体重体重