1、第二章 计量资料的统计描述 Descriptions of Measurement Data,Content,Frequency distribution Description of central tendency Measures of dispersion Normal distribution Range of reference value,Statistics lets you analyze a set of data and make conclusions that can be generalized beyond that set of data.,一、频数分布表(fr

2、equency table)例2.1 某地150名正常成年男子红细胞数。 例2-2 某单位99年的职工体检资料中获得101名正常成年女子的血清总胆固醇的测量结果。试编制频数分布表。,第一节 频数分布,表2.1 某地150名正常成年男子红细胞数(1012/L),例2-2 用直接法计算例2-1某单位101名正常成年女子的血清总胆固醇的均数。,频数分布表 (frequency table)频数:在一批样本中,相同情形出现的次数称为该情形的频数。,用途:1. 用于描述资料的分布特征. 2发现一些特大或特小的可疑值3便于进一步做统计分析和处理,1. 频数表的编制步骤,(1)求极差(range):即最大值

3、与最小值之差 例2.1极差: R=5.883.79=2.09(1012/L) (2) 决定组数、组段和组距:根据研究目的和样本含量n确定。组距=极差/组数,通常分10-15个组,为方便计,组距参考极差的十分之一, 再略加调整。本例i= R /10=2.09/10=0.2090.2。,(3) 列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。(4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。,二、频数分布图,三、频数表和频数分布图用途,1描述频数分布的类型 (1)对称分布 :若各组段的频数以频数最多组段为中心左右两侧大体对称,就认为该资料

4、是对称分布,(2)偏态分布 :1)右偏态分布(skewed to the right distribution)也称正偏态分布:右侧的组段数多于左侧的组段数,频数向右侧拖尾,2)左偏态分布(skewed to the left distribution)也称负偏态分布:左侧的组段数多于右侧的组段数,频数向左侧拖尾,2. 描述计量资料分布的集中趋势和离散趋势,集中趋势(central tendency):变量值集中位置。本例在组段“4.7”。 平均水平指标 离散趋势(tendency of dispersion):变量值围绕集中位置的分布情况。离“中心”位置越远,频数越小;且围绕“中心”左右对称

5、。 变异水平指标,第二节 集中趋势的描述,计量资料(定量资料、数值变量资料) 总体:有限或无限个变量值样本:从总体随机抽取的n个变量值: X1, X2, X3, Xnn为样本例数(样本含量、样本大小、样本含量),一、描述集中趋势的特征数(平均指标),总称为平均数(average),反映资料的集中趋势( central tendency )。常用的有: 1. 算术均数(arithmetic mean),简称均数 (mean) 2. 几何均数(geometric mean) 3. 中位数 (median),1 算术均数:简称均数(Mean)The mean is the average. Add

6、up the values, and divide by the number of values. 可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。,符号:总体 ; 样本 适用条件:资料呈对称分布,尤其是正态或近似正态。计算: (1)直接法 (2)频数表法,1 均数(mean),为求和符号,读成sigma;f :“权数”,例:计算4,4,4,6,6,8,8,8,10的均数。,例2-2 用直接法计算例2-1某单位101名正常成年女 子的血清总胆固醇的均数。,计算101名正常成年女子的血总胆固醇的均数。,2 几何均数(geometric mean):变量对数值的算术均

7、数的反对数。 可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。 Compute the logarithm of all values, compute the mean of the logarithms, and then take the antilog. It is a better measure of central tendency when data follow a lognormal distribution (long tail).,2. 几何均数(geometric mean),几何均数的适用条件与实例,适用条件:呈倍数关系的等比资料或对数正态分布(正偏

8、态)资料;如抗体滴度资料,例 血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。,此例的算术均数为22222,显然不能代表滴度的平均水平。对同一资料,几何均数中位数 负偏态分布时:均数中位数,小结: 集中趋势的描述平均数,平均数:描述一组变量值的集中位置或平均水平的指标体系。不同的分布使用不同的指标(算术)均数:正态或近似正态或观察值相差不大的小样本资料几何均数:对数正态分布或等比级数资料中位数 :一般偏态分布(传染病发病的潜伏期),Example If your data are sampled from a Gaussian distributi

9、on, the mean, geometric mean and median all have similar values. But if the distribution is skewed, the values can differ a lot as this graph shows:,The graph shows one hundred values sampled from a population that follows a lognormal distribution. The left panel plots the data on a linear (ordinary

10、) axis. Most of the data points are piled up at the bottom of the graph, where you cant really see them. The right panel plots the data with a logarithmic scale on the Y axis. On a log axis, the distribution appears symmetrical. The median and geometric mean are near the center of the data cluster (

11、on a log scale) but the mean is much higher, being pulled up by some very large values.,第三节 离散趋势的描述,例2-11 三组同龄男孩的身高值(cm)What do you find out?,描述离散趋势的特征数(变异指标),反映数据的离散度( Dispersion )。即个体观察值的变异(variation)程度。常用的指标有: 1. 极差(Range) (全距) 2. 百分位数与四分位数间距 Percentile and Quartile range 3. 方差 Variance 4. 标准差Sta

12、ndard Deviation 5. 变异系数 Coefficient of Variation,例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3),甲,乙,丙,1.极差(Range, R),120,40,20,意义:反映全部变量值的变动范围。 优点:简便,如说明传染病的最长、最短潜伏期等。 缺点:1. 只利用了两个极端值2. n大,R也会大3. 不稳定 适用范围:任何计量资料;是参考变异指标,2.百分位数与四分位数间距 Percentile and quartile range,百分位数 :数据从小到大 排列;在百分尺度下,所占百分比对应的值。记

13、为Px。四分位间距: QP75 P25,Px,What are percentiles? Percentiles are useful for giving the relative standing of an individual in a group. The 80th percentile is a value where youll find 80% of the values lower and 20% of the values higher.Percentiles are expressed in the same units as the data. The median i

14、s the 50th percentile.,Quartiles 四分位数: Quartiles divide the data into four groups, each containing an equal number of values. Quartiles are divided by the 25th, 50th, and 75th percentile. One quarter of the values are less than or equal to the 25th percentile. Three quarters of the values are less than or equal to the 75th percentile. Interquartile range 四分位数间距: The difference between the 75th and 25th percentile is called the interquartile range. It is a useful way to quantify scatter.,


