定量资料的统计描述.doc

资源描述

《定量资料的统计描述.doc》由会员分享，可在线阅读，更多相关《定量资料的统计描述.doc（25页珍藏版）》请在金锄头文库上搜索。

1、第四章定量资料的统计描述第四章定量资料的统计描述通过调查或实验收集到资料之后，需要对资料进行统计分析。统计分析包括统计描述和统计推断两个方面的内容。统计描述就是对数据包含的信息加以整理、概括和浓缩，用适当的统计图表和统计指标来表达资料的特征或规律，统计描述也是统计推断的基础。本章介绍定量资料(quantitative data)的统计描述。第一节频数分布表与频数分布图一、频数分布表从医学实践中收集到的大量资料，如果只是简单地罗列一连串的数据，不容易看出其中蕴涵的信息和规律，所以需要进行分组整理，以便能用简明扼要的形式来全面反映资料的特点。分组整理就是根据研究的目的，将数据按照某种标准(

2、标志)划分成不同的组别，统计不同组别内的观察值个数。不同组别的观察值个数就称为频数(frequence)，表示观察值在各组出现的频繁程度。将分组的标志和相应的频数列表，即为频数分布表，简称频数表(frequency table)。不同类型的定量变量可以制作不同分组形式的频数表。(一) 离散型定量变量的频数表例4.1 某市2005年进行学生体质评价，抽样调查了102名高中男生引体向上完成次数的情况，根据该资料制作频数表。本次调查资料“引体向上完成次数”是离散型定量变量，所以按变量的取值(次数)为单位分组，再列出各组的频数，如表4.1的第(1)，(2)栏，就能得到相应的频数表。将各组的频数除以总

3、频数所得的值称为频率，见第(3)栏。某组的累计频数是该组与前面各组频数之和，见第(4)栏。显然，第一组的累计频数等于其频数，最后一组的累计频数等于总例数；累计频数除以总频数所得的值称为累计频率，见第(5)栏。表4.1 2005年某市102名高中男生引体向上完成次数的频数分布完成次数频数f频率(%)累计频数累计频率(%)(1) (2) (3)(4)(5)232.9432.94376.86109.8041615.692625.4953332.355957.8462423.538381.3771413.739795.10843.9210199.02910.98102 100.00合计102 100

4、.00(二) 连续型定量变量的频数表例4.2 在某市2005年进行的小学生体质评价研究中，测定了120名9岁男孩的肺活量(L)，资料如下，根据该资料制作频数表。1.706 1.326 1.632 1.876 2.161 1.684 1.533 1.175 1.867 1.676 2.091 1.847 1.213 1.277 0.989 2.235 1.665 1.289 1.724 1.548 1.608 1.890 1.733 1.796 1.203 1.736 1.450 1.633 1.555 1.352 1.832 1.444 1.737 1.459 1.450 1.782 1.55

5、5 1.634 1.508 2.343 1.509 1.745 1.953 1.744 1.695 1.707 1.901 1.825 1.597 2.338 1.708 1.711 1.856 1.644 1.716 1.978 1.534 1.900 1.595 1.646 1.905 1.610 1.614 1.422 2.301 2.127 1.348 1.317 1.062 1.830 1.980 1.570 1.495 1.864 2.170 2.000 1.705 1.863 1.424 2.022 2.068 1.576 1.833 1.659 2.212 1.399 2.12

6、8 1.543 1.562 1.382 1.291 1.796 1.647 1.415 1.873 0.996 1.936 1.526 1.424 1.589 1.670 1.056 1.969 1.481 2.406 2.123 1.988 1.512 1.030 1.886 1.930 1.725 1.374 1.654 1.663 1.438 1.645 1.214 1.184 1.735 “肺活量”是连续型定量变量，需要按变量的取值范围划分成几个区间，每个区间称为一个组段，用各组段与对应的频数列表，即得到频数表。编制连续型定量变量频数表的过程为：1. 求全距(range)：全距又称为极

7、差，是全部数据中最大值与最小值之差，用符号表示，本例的全距2. 划分组段确定组数：分组的目的是反映数据分布的特征，因此组数应适中。若组数太多，数据的分布过于分散，难以显示出频数分布的规律性，并有可能出现某些组内频数为0的情况；若组数过少，可能丢失重要的细节信息，不能充分体现资料的分布特征。组数的多少与观察值的个数n有关，一般当观察值的个数n 在50以下时可分5到8组，n在50以上时可分9到15组，实际运用时应根据分析的要求，灵活确定组数。本例n为120，拟分11组。确定组距：等距分组时，为便于计算，组距可适当取整。本例，故可取0.130为组距。确定各组段的上下限：确定组数和组距后，要使每一个观

8、察值都有组可归，同时又要使每一个观察值只能归属于某一组，这就要求合理地设置各组段的上下限。每个组段的起点称为该组的下限(lower limit)，终点称为该组的上限(upper limit)，上限=下限+组距。在确定第一个组段时，其下限可取一个小于最小观察值的数，例如，本例取0.980为第一组下限，加上组距0.130即为第二组下限，依次类推，直到最末一组。为表示各组段均为半开半闭区间(下限为闭区间，上限为开区间)，除最末一组外，一般只写出下限。3. 统计各组段频数：采用计算机汇总或用手工划记法，得到各组段内的观察值个数即频数，划记时为避免重复计数，对于刚好等于某一组段上限的观察值要算在下一组段

9、内。将各组段与相应频数列表，如表4.2的第(1)、(2)栏，即得到频数表。表4.2 2005年某市120名9岁男孩肺活量(L)频数分布组段频数( f )频率(%)累计频数累计频率(%)(1)(2)(3) (4)(5)0.98054.1754.171.11054.17108.331.24075.831714.171.3701411.673125.831.5001915.835041.671.6302924.177965.831.7601512.509478.331.8901210.0010688.332.02065.0011293.332.15043.3311696.67 2.2802.410

10、43.33120100.00合计120100.00一般采用等距分组，但某些情况下，采用不等距分组更能反映现象的本质和特点。例如，进行人群疾病研究的年龄分组，为客观反映婴儿、幼儿和成年人疾病发生情况的特点，应采用不等距分组，可采取1岁以下按月分组，19岁按岁分组，10岁以后按每5岁或10岁分组等。二、频数分布图用图形的方法能够直观形象地表达频数分布的信息，并可与频数表互为补充。连续型定量变量的频数表可绘制成直方图。一般情况下，绘图时以横轴表示观察变量(组距)，以纵轴表示频数。用表4.2资料绘制的直方图如图4.1所示。图4.1 2005年某市120名9岁男孩肺活量频数分布频数分布表和频数分布图的主

11、要用途是：1. 揭示频数分布的特征从频数分布表和频数分布图可以看出频数分布的两个重要特征：集中趋势(central tendency)和离散趋势(dispersion tendency)。集中趋势是指一组数据向某一个位置聚集或集中的倾向，离散程度则反映的是一组数据的分散性或变异度，即各个数据离开集中位置的程度。如从表4.2和图4.1可见120名9岁男孩的肺活量大多数集中在中央部分，即中等肺活量者居多；从中央部分到两侧的频数分布逐渐减少，即少数人具有较大或较小的肺活量，则表现了肺活量分布的离散趋势。2. 揭示频数分布的类型根据频数分布的特征可以将资料的分布分成对称型和不对称型两种类型。对称型

12、的分布是指集中位置在中间，左右两侧的频数大致对称的分布，如表4.2和图4.1所示。不对称型的分布是指频数分布不对称，集中位置偏向一侧，有时也称之为偏态分布。若集中位置偏向数值小的一侧(左侧)，称为正偏态(positive skew)，如图4.2所示；若集中位置偏向数值大的一侧(右侧)，称为负偏态(negative skew)，如图4.3所示。用频数分布表和频数分布图揭示频数分布的类型和特征，便于选用适当的统计方法。图4.2 2004年我国麻疹患者的年龄分布频数评分图4.3 某市219名乳腺癌患者术后康复期生存质量评分的分布第二节集中位置的描述利用频数分布表和频数分布图，可以使我们对数据的分

13、布有一个直观的认识，为了进一步掌握数据分布的规律，还需要用统计指标从数量上准确地反映数据分布的特征。平均数(average)是描述定量变量集中为使的特征值，用来说明数据的平均水平，它反映了一组资料的“一般”、“大多数”、“平常”等情况。平均数是一类统计指标的统称，在医学领域中常用的平均数有均数、几何均数和中位数。一、均数均数(mean)是算术均数(arithmetic mean)的简称，用于描述一组同质定量资料的平均水平。统计学中常用希腊字母表示总体均数，用表示样本均数。(一) 样本均数的计算1. 直接法将所有的原始观察值直接相加后，再除以观察值的个数n，即 (4.1)式中，为求和符号。例4

14、.3 利用例4.2的120名9岁男孩的肺活量资料，用直接法计算平均肺活量。2. 加权法(weight method) 当资料中相同观察值较多时，将各相同观察值的个数(即频数f )与该观察值X的乘积相加，以代替原始观察值相加，再除以观察值的总个数，即 (4.2)在式(4.2)中，如果某个观察值的频数愈大，则该观察值对的影响愈大，因此频数又称为权数，计算出来的均数又称加权均数。如果只有频数表资料，因为不知道组段内的每个实际观察值，可以用组中值作为该组段观察值的代表值，再用加权法求均数，。例如，对2005年某市120名9岁男孩的肺活量资料，利用表4.2求均数为：结果与直接法计算结果很接近。频数表资料使用组中值代替实际观察值的条件是假定各组数据在组内是均匀取值的，如不符合此条件，其误差会较大。(二) 均数的特性1. 各观察值与均数之差(离均差)的总和等于零。即。2. 各观察值的离均差平方和最小。

展开阅读全文