定量资料的统计描述

上传人:平*** 文档编号:25250075 上传时间:2017-12-12 格式:PPT 页数:72 大小:1.82MB
返回 下载 相关 举报
定量资料的统计描述_第1页
第1页 / 共72页
定量资料的统计描述_第2页
第2页 / 共72页
定量资料的统计描述_第3页
第3页 / 共72页
定量资料的统计描述_第4页
第4页 / 共72页
定量资料的统计描述_第5页
第5页 / 共72页
点击查看更多>>
资源描述

《定量资料的统计描述》由会员分享,可在线阅读,更多相关《定量资料的统计描述(72页珍藏版)》请在金锄头文库上搜索。

1、医学统计学,流行病与卫生统计学系,定量资料的统计描述,案例,第二章 定量资料的统计描述,利用统计表对数据进行概括,用统计图对分布形态及分布间的关系做直观的表达,用于描述定量资料的统计指标的意义与计算。,第一节 频数与频数分布,频数与频数分布频数:重复观察某个变量,其中某个取值的个数。频数分布表(frequency distribution table):又称频数表。是将原始数据值适当分组后得到各组的频数,如表2-1频数分布表。 适用样本量较大的资料进行统计描述的常用方法。通过频数表可以显示数据分布的范围与形态。 可用手工和计算机软件(如SAS、SPSS等)方便制作频数表。,频数与频数分布,连续

2、型定量变量的频数分布 例2-2 抽样调查某地120名18岁35岁健康男性居民血清铁含量(mol/L), 将数据适当分组,计数每组的频数,根据这些数据编制成的频数分布表(表2-2)则能显示出这组数据分布的特点。,频数与频数分布,数据,频数与频数分布,手工编制表2-2步骤。 (1)计算全距(range,R),也称为极差 R = 最大值最小值 = 29.64-7.42=22.22(mol/L)(2)确定组段数与组距:组段数一般可在815之间选择。组距=上限下限=R/(预计的组段数)。本例如果预计取12个组段,则组距长度约为22.22/12=1.85,取整数2。两端的组段应分别包含最小值或最大值;(3

3、)确定组限,列表 做出如表2-2的表格,将选好的组段顺序地列在 (1)列。按照“下限x上限” 的原则确定每一例数据x应归属的组段。,表2-2 120名正常成年男子血清铁含量的频数分布表,一上正一正上正正丅正正正正正正正正正丅正正正上正正丅正上止一,13681220271812841,组段,划记,频数,120,频率,累计频数,累计频率,频数与频数分布,频数分布图:在表2-2的基础上,可以绘制出图2-2,称为直方图(频率直方图)。 横轴:血清铁含量 纵轴:频率密度,即频率/组距(直条面积等于相应组段的频率)。 在组距相等时,直方图中矩形直条的高度与相应组段的频率成正比。,频数与频数分布,直方图,频

4、数分布的两个特征,集中趋势:血清铁含量向中央部分集中,即中等含量者居多,集中在18 这个组段,这种现象为集中趋势。,离散趋势:从中央部分到两侧的频数分布逐渐减少,而且血清铁含量的值参差不齐,最低的接近6 ,最高的接近30 ,这种现象称为离散趋势。,由于同质性,所有实测值趋向同一数值的趋势称为集中趋势。,离散趋势或变异程度是指观察值之间参差不齐的程度。,频数与频数分布,对称分布:频数最多的组段在中央,图2-1偏态分布:正偏峰分布:峰向左侧偏移的分布,右侧的组段数多于左侧,为右偏峰分布。图2-2负偏峰分布:峰向右侧偏移的分布,左侧的组段数多于右侧,为左偏峰分布。图2-3,频数分布的两个类型,频数与

5、频数分布,离散型定量变量的频数分布 例2-1 1998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7等共96个数值,频数与频数分布,表2-1:96名妇女产前检查次数分布的频数分布表,频数与频数分布,图2-1,直条图,频数表的用途 1. 揭示频数分布的分布特征和分布类型。文献中常将频数表作为陈述资料的形式。 2. 便于进一步计算统计指标和进行统计分析处理。 3. 便于发现某些特大或特小的可疑值。 4. 当样本含量比较大时,可用各组段的频率作为概率的估计值。,第二节 定量变量的特征数,集中趋势统计指标 平均数 对于连续型定量变量,

6、描述集中趋势常用的统计量为算术均数、几何均数和中位数。算术均数(Mean): 适合描述对称分布资料的集中位置(也称为平均水平)。其计算公式为,定量变量的特征数,1)直接计算法:计算公式为 式中X1,X2和Xn为所有观察值,n为样本含量,(希腊字母,读作sigma)为求和的符号。,定量变量的特征数,例2-3 测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。算术均数=(4.20+6.43+2.08+3.45+2.26+4.04+5.42+3.38)/8=3.9075 (U/L),定量变量的特

7、征数,定量变量的特征数,2)加权频数表法:计算公式为加权均数=2228/120=18.57(mol/L)直接法均数=18.61(mol/L)。,定量变量的特征数,几何均数(geometric mean,G) 适用于观察值变化范围跨越多个数量级的资料。其频数图一般呈正偏峰分布。人们常用几何均数描述这类资料的集中位置。 在医学研究中常适用于免疫学的指标。其计算公式为,定量变量的特征数,例2-5 7名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64, 1:64,1:128,1:512。试计算其几何均数。,定量变量的特征数,加权法计算几何均数。频数表资料例2-6 52例慢

8、性肝炎患者的HBsAg滴度数据如表2-4。试计算滴度的几何均数。,定量变量的特征数,定量变量的特征数,52例慢性肝炎患者的HBsAg滴度的几何均数为1119.74705。,定量变量的特征数,中位数(median,M) 可用于各种分布的定量资料。中位数的原意是指在总体中有一半个体的数值低于这个数,一半个体的数值高于这个数。 奇数: 偶数:,定量变量的特征数,百分位数法计算中位数:频数表资料百分位数的计算公式为 式中LX、iX和fX分别为第百分位数所在组段的下限、组距和频数,fL为小于该组段的累计频数, n为总例数。即为中位数的计算公式,定量变量的特征数,例2-8 试利用表2-2的频数表求例2-2

9、中血清铁含量的中位数。从表2-2可判断出位于“18-”这个组段。将相应数据代入式(2-8)该组血清铁资料的中位数为18.74(mol/L)如果按(2-7)式计算, 结果为18.99(mol/L)。,定量变量的特征数,离散趋势统计指标 例2-11 试观察三组数据的离散状况。A组:26,28,30,32,34;B组:24,27,30,33,36;C组:26,29,30,31,34。将三组数据分别点在直线上,如图2-4所示。,定量变量的特征数,1.极差(Range ,R) 极差:一组变量值最大值与最小值之差。 极差不能反映所有数据的变异大小,且受样本含量的影响较大,N大,极差值相差也大,故其稳定性较

10、差。例2-11中三组数据的极差 A组 R=34-26=8 B组 R=36-24=12 C组 R=34-26=8,定量变量的特征数,2.四分位数间距(Quartile range ,Q) 四分位数是把全部变量值分为四部分的百分位数,即第1四分位数(QL=P25)、第2四分位数(M=P50)、第3四分位数(QU=P75)。四分位数间距(quartile range)是由第3四分位数和第1四分位数相减而得,记为Q。它一般和中位数一起描述偏态分布资料的分布特征。,定量变量的特征数,3.方差方差(variance)也称均方差(mean square deviation),反映一组数据的平均离散水平。离均

11、差:每一个变量值与均数的差值,离均差平方和(sum of squares):离均差平方后相加得到的值方差:离均差平方和除以观察例数得到的值,定量变量的特征数,方差计算公式为4、标准差(Standard deviation),定量变量的特征数,例2-14 分别计算例2-11中三组数据的标准差。 按照公式(2-11)与标准差的定义 A组 B组 C组 C组的标准差最小,B组的最大。意味着C组数据的离散趋势最小,B组的最大,定量变量的特征数,5.变异系数 变异系数(coefficient of variation)记为,多用于观察指标单位不同时的变异程度或均数相差很大的时候的比较。其计算公式为,定量变

12、量的特征数,例2-16 通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg;身高均数为72.4cm,标准差为3.0cm。试计算周岁女童身高与体重的变异系数。体重的相对变异要大于身高的相对变异,例2-17 由下表资料可知,虽然儿童身高的标准差随着年龄的增大而增加,但不同年龄儿童身高的均数相差较大,在比较身高的变异度时,不能只看标准差的大小。若用变异系数分析,就可看出6岁以下儿童随着年龄增加,其身高的变异程度逐渐减少。,小结,掌握内容:频数分布表的编制及用途,频数分布的两大特征和频数分布的类型,描述定量资料的几个常用指标的意义和适用范围,如何编制描述性统计表熟悉内容:

13、各种指标的计算方法,软件操作,SPSS (Statistical Package for the Social Science, Statistical Product and Service Solutions)SAS (Statistical Analysis System)STATA (Data Analysis and Statistical Software),案例讨论,某年级甲班、乙班各有男生50人。从两个班各抽取10人测量身高,并求其平均身高。如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?为什么?,根据统计显示,多数车祸发生在车子行驶于一般车速的时候,只有少

14、数发生在车速超过每小时150公里以上的时候。这是否表示开快车比较安全?调查显示,脚较大的儿童识字能力也比较好,这是否表示儿童脚的大小,可以测量出他的识字能力?,煤矿工作的工人与非损伤工种的工人的寿命一样长,是否可以说明煤矿工作不会影响寿命?如果统计显示在亚利桑那州有较多的人死于肺部疾病,这是否表示和别的州比较起来,亚利桑那的气候比较容易感染肺部疾病?,A、B两市,一研究者分别从两市市立医院的出生记录中获取100名儿童的出生体重,经计算A市100名儿童平均出生体重为3.0kg,B市100名儿童平均出生体重为3.1kg。请评价以下说法是否正确,为什么?(1)B市儿童平均出生体重高于A市。(2)B市

15、市立医院100名儿童平均出生体重高于 A市市立医院100名儿童平均出生体重。(3)B市市立医院儿童平均出生体重高于A市市立医院。,习 题1. 反映定量变量观察数据集中位置的指标是( )A 标准差 B 标准误 C 频率 D均数2. 在正态分布条件下,表示变量值变异情况的指标最常用的是( )A 标准差 B 标准误 C 变异系数 D 百分位数,3. 变异系数越大说明( )A 标准差越大 B 标准差、平均数都大 C 以均数为准变异程度大 D 平均数小4. 在服从正态分布N(,2)条件下,样本标准差S的值( )A 与集中趋势有关 B 与观察例数n无关C 与平均数有关 D 与个体的变异程度有关5. 已知某疾病患者10人的潜伏期(天)分别为:6,13,5,9,12,10,8,11,8,12,其潜伏期的平均水平约为( )A 9天 B 9.5天 C 10天 D 11天,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号