第4章定量资料的统计描述

上传人:平*** 文档编号:5971631 上传时间:2017-08-07 格式:PPT 页数:132 大小:2.37MB
返回 下载 相关 举报
第4章定量资料的统计描述_第1页
第1页 / 共132页
第4章定量资料的统计描述_第2页
第2页 / 共132页
第4章定量资料的统计描述_第3页
第3页 / 共132页
第4章定量资料的统计描述_第4页
第4页 / 共132页
第4章定量资料的统计描述_第5页
第5页 / 共132页
点击查看更多>>
资源描述

《第4章定量资料的统计描述》由会员分享,可在线阅读,更多相关《第4章定量资料的统计描述(132页珍藏版)》请在金锄头文库上搜索。

1、第四章定量资料的统计描述,流行病与卫生统计学教研室,【例4-1】2006年某市120名10岁男孩的身高(cm)资料如下135.4139.8144.0 147.3146.3142.5138.1143.6141.6152.6132.1144.7143.6146.8144.2141.3137.5142.8140.6150.4145.9140.2144.5148.2146.4142.4138.5148.9146.2155.4134.2139.2143.5141.6143.5142.3148.9143.6141.5151.1132.5138.7149.6146.9148.7141.5137.8142.7

2、144.6151.8136.4140.0144.3147.5145.6142.5138.5143.7149.5153.6130.2138.9143.7146.5138.8141.7136.9142.0140.5150.3135.7145.7144.2147.8145.8142.6138.6143.8141.3153.9133.4139.6143.7147.5144.8148.0137.4142.1140.8141.8134.5139.4142.9147.5144.7141.8136.9143.5140.7151.4145.6147.3143.9141.9151.6145.6148.9144.3

3、139.1145.8145.6145.3147.6148.6145.5137.3146.5140.3148.4136.5,【问题4-1】该资料为何种类型资料?如何对该资料进行描述? (描述10岁男孩身高的数量特征),第一节 频数表和频数图,第二节 集中趋势的描述,第三节 离散趋势的描述,第四节 正态分布及其应用,本章主要内容,由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution)将原始数据按照一定的标准划分为若干各组,合计各组的频数,得到频数分布表;也可再将频数表绘制成频数分布图,频数(freque

4、ncy):一组资料中各观察值或不同组段内观察值出现的频繁程度(次数)频数分布表(frequency table):由变量值及其频数编制而成的表,简称频数表。,一、频数分布表,(一)频数表的编制,1. 求极差(range):极差又称全距,是指全部观察值中最大值与最小值之差,用符号R表示 R=xmax-xmin,2. 确定组数和组距 (1) 根据研究目的和分析要求灵活确定组数: 若为计算用,组数可适当增多,以减少计算误差;若为显示分布特征,则组数不宜太多或太少, 一般n50,915,(2)确定组距(class interval):相邻两个组段下限之差为组距,一般采用等距分组。 i=R/组数,为了方

5、便资料整理汇总,组距一般取整数,3. 确定组段组段起点称为下限(lower limit)组段终点称为上限(upper limit)注意:第一组段必须包含最小值,最后一个组段必须包括最大值,各组段不能重叠。除最末一个组段需同时写出上下限外,其余组段只写出其下限,11,确定组段即确定每一组的起点(下限)和终点(上限) 。,起点称为下限(lower limit)终点称为上限(upper limit),上限=下限+组距,4. 归组计数,整理成表确定组段界限后,采用计算机或用划记法将各原始数据归入各组汇总,得出各组段的观察例数,也就是频数 。用计算机或手工划记法汇总,得到各组段观察单位个数,绘制成频数分

6、布表,表4-1 2006年某市120名10岁男孩身高(cm)的频数表,(二)频数分布表的用途,1. 揭示频数分布特征2. 揭示频数分布类型3. 便于发现特大或特小的可疑值4. 便于进一步计算统计指标和进行统计分析,频数分布的两个特征集中趋势(central tendency):指一组数据向某个位置聚集或集中的倾向 离散趋势(dispersion):指一组数据的分散性或变异度,频数分布的类型 对称分布(symmetric distribution) :集中位置在中间,左右两侧频数基本对称,偏态分布(skewed distribution):集中位置偏向一侧,两侧频数分布不对称正偏态(positi

7、ve skew)平均数大于众数(右偏) 负偏态(negative skew)平均数小于众数 (左偏),18,3. 便于发现某些特大或特小的可疑值,对于频数表,如果连续某几个组段的频数为0,接下来的组段出现频数不为0的数值,此数值即为可疑值。,4.便于进一步计算指标和统计处理 可利用频数表计算百分位数、中位数、标准差等,二、频数分布图,频数分布图(graph of frequency)是以变量值为横坐标、频数(或频率)为纵坐标(不等距分组时以频率/组距=频率密度为纵坐标),以每个等宽的距形面积表示每组的频数(或频率),连续型定量资料:频数图中各距形是相连的,又称直方图(histogram)离散型

8、定量资料:频数图中各距形是间隔的,又称直条图(bar graph),图4-1 2006年某市120名10岁男孩身高的频数图,频 数,频 数,频 数,血清肌红蛋白(g/ml),负(左)偏态,对称分布,正(右)偏态,23,图 69例RA患者血清EBV-VCA-IgG 抗体滴度的频数分布,图 101名正常人血清肌红蛋白的频数分布,正(右)偏态,负(左)偏态,434名少数民族已婚妇女现有子女数频数分布图,集中趋势的描述,平均数(average)是一类描述计量资料集中位置或平均水平的统计指标,在医学领域中常用的平均数有算术均数、几何均数、中位数、众数、调和均数,一、算术均数(arithmetic mea

9、n),简称均数(mean),总体均数用希腊字母 (miu)表示,样本均数用 (x bar)表示。均数描述一组数据在数量上的平均水平,直接法将所有数据直接相加,再除以总例数:是希腊字母,读作sigma,为求和符号,1. 计算方法,【例4-2】某医生测量了10名脑出血患者的血尿素氮(mmol/L)分别是:7.4、6.7、6.9、7.3、7.6、6.5、 7.8、8.2、8.0、6.6,试计算该组数据的均数,加权法 用于频数表资料或样本中相同观察值较多时,将相同观察值的个数(频数 f )乘以该观察值 x,以代替相同观察值逐个相加,【例4-3】根据表4-1资料,用加权法求120名10岁男孩身高的均数,

10、f 起了“权数”的作用,权衡了各组中值由于频数不同对均数的影响。加权法计算的均数是近似的,均数两个重要的性质,适用于描述单峰对称分布,特别是正态分布或近似正态分布资料的集中趋势均数在描述正态分布特征方面有重要意义,均数的应用,我也知道了!,例 现有5人,其血清抗体效价分别为1:10、 1:100、 1:1000、 1:10000和 1:100000,求其效价倒数的平均水平若计算效价倒数的算术均数用算术均数反映这类资料的平均水平是不合适的,先求效价倒数对数值的均数,然后求反对数1000位于10、100、1000、10000、100000的中间位置,具有很好的代表性,这种平均数就称为几何均数,二、

11、几何均数(Geometric mean,G),是n个观察值乘积的n次方根,又称倍数均数,用G表示 。,直接法:当 n 较小时,直接将 n 个观察值的乘积开n 次方,1. 计算方法,加权法:当资料中出现相同观察值时,也可用加权法计算几何均数,【例4-4】 某实验室测得7人血清中某种抗体的滴度分别为1/4,1/8,1/16,1/32,1/64,1/128, 1/256,试求平均滴度,直接法,【例4-6】50名麻疹易感儿接种麻疹疫苗后,测得血凝抑制抗体滴度资料见表4-3,求抗体的平均滴度。,表4-3 50名麻疹易感儿血凝抑制抗体滴度,加权法,即50名麻疹易感儿接种麻疹疫苗后血凝抑制抗体的平均滴度为1

12、/54,2. 应用及注意事项,几何均数应用于:等比资料,如抗体平均滴度对数正态分布资料,Remember!,使用几何均数时应注意:观察值不能有0观察值不能同时有正值和负值。若全为负值,在计算时先把负号去掉,得出结果再加上负号,Be careful!,【例4-7】200名食物中毒患者潜伏期资料如表4-4,研究人员据此采用加权法计算均数得平均潜伏期为27小时。(1)该组数据在分布上有何特点? (2)用均数描述该资料的平均水平是否合适?,三、中位数与百分位数,表4-4 200名食物中毒患者的潜伏期,中位数(median):一组观察值从小到大排列,位次居中的观察值即中位数,是一个位置指标,48,中位数

13、(median):将一组观察值由小到大排序后,居于中间位置的数值即为中位数 ,用 表示。,中位数是一种位置平均数,它将全部数据排列成的有序数列平均分为两部分,小于和大于中位数的观察值个数相等,各占50%。,直接法:观察值个数较少 n为奇数,n为偶数,,【例4-8】某实验师对10只小白鼠染毒后观察各小鼠的生存时间(分钟),得数据为:35,60,62,63,63,65,66,68,69,69,试计算小白鼠的平均生存时间将10个观察值由小到大排列:35,60,62,63,63,65,66,68,69,69,频数表法,LM 中位数所在组段下限,组距,中位数所在组段的频数,中位数所在组段前一组的累计频数

14、,【例4-9】根据例4-7的资料计算中位数,表4-4 200名食物中毒患者的潜伏期,(小时),百分位数(percentile):是指将一组观察值由小到大排序后,将其平均分成100等份,对应于每一分割位置上的数值就称为一个百分位数,用 表示,x%,(100-x)%,x% Px (100-x)%50%分位数就是中位数25%,75%分位数称四分位数(quartile),56,是一种位置指标,一个百分位数将一组观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。,式中:,第x百分位数所在组段下限组距第x百分位数所在组段的频数第x百分位数所在组段前一组的累计频数,频数表法,【

15、例4-10】根据表4-4,计算P25、P75,(小时),(小时),中位数适用条件:偏态分布资料分布类型不明确的资料“开口资料”(即一端或两端无确切数值的资料),Understand?,百分位数:非正态分布资料,三组躯体功能维度得分,离散趋势的描述,62,【例4-11】分别观察两组各9只动物的每日进食量(mg/g),结果如下: A组 24 25 26 27 28 29 30 31 32 B组 20 21 22 23 24 25 26 27 64两组动物每日进食量的平均数,均为28mg/g。,思考:28mg/g能否分别代表两组动物每日近食量的平均水平?,63,离散趋势是频数分布的另一特征,反映了观察值之间的变异情况,只有将集中趋势与离散趋势结合起来描述才能全面反映定量资料的数量特征。,描述离散趋势的常用指标,极差(range)四分位数间距(interquartile range)方差(variance)和标准差(standard deviation) 变异系数(coefficient of variation),

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号