卫生统计学第7版 方积乾主编 课件第二章 定量资料的统计描述

上传人:Bod****ee 文档编号:58173072 上传时间:2018-10-27 格式:PPT 页数:69 大小:923.50KB
返回 下载 相关 举报
卫生统计学第7版 方积乾主编 课件第二章 定量资料的统计描述_第1页
第1页 / 共69页
卫生统计学第7版 方积乾主编 课件第二章 定量资料的统计描述_第2页
第2页 / 共69页
卫生统计学第7版 方积乾主编 课件第二章 定量资料的统计描述_第3页
第3页 / 共69页
卫生统计学第7版 方积乾主编 课件第二章 定量资料的统计描述_第4页
第4页 / 共69页
卫生统计学第7版 方积乾主编 课件第二章 定量资料的统计描述_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《卫生统计学第7版 方积乾主编 课件第二章 定量资料的统计描述》由会员分享,可在线阅读,更多相关《卫生统计学第7版 方积乾主编 课件第二章 定量资料的统计描述(69页珍藏版)》请在金锄头文库上搜索。

1、第二章 定量资料的统计描述,2018/10/27,1,学习要求了解:应用SAS程序编制频率表的方法和means、univariate过程对定量资料的描述。熟悉:定量资料频率表的编制方法和用途。掌握:算术均数、几何均数、中位数的计算方法和使用条件;四分位间距、方差、标准差、变异系数的计算方法和使用条件。,2018/10/27,2,统计描述是用统计图表、统计指标来描述资料的分布规律及其数量特征的。第一节 频率分布表与频率分布图医学研究资料变量值的个数较多时,对个变量值出现的频数或频率列表即为频数分布表或频率分布表(frequency distribution table),简称频数表或频率表。,2

2、018/10/27,3,一、离散型定量变量的频率分布例2-1 1998年某山区96名孕妇产前检查次数资料,编制频率表。表2-1 1998年某地96名孕妇产前检查次数频率分布,2018/10/27,4,图2-1 1998年某地96名孕妇产前检查次数频率分布,离散型定量变量的频率分布图可用直条图表达,以等宽直条的高度表示各组频率的多少,2018/10/27,5,二、连续型定量变量的频率分布,例2-2 抽样调查某地120名1835岁健康男性居民血清铁含量(mmo/L),数据如下。试编制血清铁含量的频率分布表。,2018/10/27,6,频率表的编制步骤如下:1. 计算极差 (range, R),亦称

3、全距,即最大值与最小值之差。本例最大值为29.64,最小值为7.42,故R=29.64-7.42=22.22 (mmo/L)。2. 确定组段数与组距(class interval) 组段数一般取10组左右。组距用i表示,组距=极差/组段数,本例拟分10组,i=22.22/10=2.22,一般取靠近的整数作为组距,本例取i2。3. 确定各组段的上、下限 每个组段的起点称为组段的下限,终点称为组段的上限。第一组段要包括最小值,其下限取小于或等于最小值的整数,本例取6最为第一组段的下限(也可取7),最后一个组段要包括最大值。注意各组段不能重合,每组段只写出下限,如6,8,最后一个组段可包括其上限值,

4、如本例2830。4. 列表 清点各组的频数,计算频率、累积频率数和累计频率。,2018/10/27,7,表2-2 120名正常成年男子血清铁含量(mmo/L)频率分布,2018/10/27,8,图2-2 120名健康成年男子血清铁含量(mol/L)分布,2018/10/27,9,2-2 120名健康成年男子血清铁含量(mmo/L)分布,2018/10/27,10,三、频率分布表(图)的用途1.揭示资料的分布类型,2018/10/27,11,正偏态(右偏态),负偏态(左偏态),2.观察资料的集中趋势和离散趋势 3.便于发现某些特大或特小的可疑值 4.便于进一步计算统计指标和作统计处理,2018/

5、10/27,12,第二节 描述集中趋势的统计指标,医学定量资料中,描述集中趋势的统计指标主要有算术均数、几何均数和中位数。 一、算术均数(arithmetic mean)简称均数。均数适用于对称分布或近似对称分布的资料。习惯上以希腊字母 表示总体均数(population mean),以表示样本均数 (sample mean)。常用计算方法有直接法和频率表法(亦称加权法)。,2018/10/27,13,1.直接法,例2-3 测得8至正常大白鼠血清总酸性磷酸酶(TACP)含量 (U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。本例,(U/

6、L),2018/10/27,14,2.频率表法 当变量值的个数较多时,在编制频率表的基础上,应用加权法计算均数的近似值。,公式中,f 为各组段的频数,X0为各组段的组中值, X0=(组段上限+组段下限)/2。例2-4,(mmo/L),如用直接法计算, =18.61(mmo/L),2018/10/27,15,表2-3 频数表法计算均数,2018/10/27,16,二、几何均数(geometric mean,)几何均数使用于原始变量不呈对称分布,但对变量经对数转换后呈对称分布的资料,又称对数正态分布资料。常见于正偏态分布资料,如抗体滴度,某些传染病的潜伏期,细菌计数等。计算公式亦可用直接法和频数表

7、法。,1.直接法 对数的形式为,2018/10/27,17,例2-5 7名慢性迁延型肝炎患者的HBsAg滴度资料为: 1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。本例先求平均滴度的倒数,7名慢性迁延型肝炎患者的HBsAg滴度几何均数为1:64。,2018/10/27,18,2.频率表法:当资料中相同变量值的个数f(即频数)较多时,可通过频率表法计算几何均数,公式为,表2-4 52例慢性肝炎患者的 HBsAg滴度资料,2018/10/27,19,本例f lgX= 108.06977 , f=52,代入公式得,52例慢性肝炎患者的 HBsAg滴度的几

8、何均数为1:119.75计算几何均数应注意:变量值中不能有0;不能同时有正值和负值;若全是负值,计算时可先把负号去掉,得出结果后再加上负号。,2018/10/27,20,2018/10/27,21,2018/10/27,22,2018/10/27,23,三、中位数及百分位数1.中位数(median , M)将一组变量值从小到大按顺序排列,位次居中的变量值称为中位数。在全部变量值中,大于和小于中位数的变量值的个数相等。用中位数表示平均水平主要适用于:变量值中出现个别特小或特大的数值;资料的分布呈明显偏态,即大部分的变量值偏向一侧;变量值分布一端或两端无确定数值,只有小于或大于某个数值;资料的分布

9、不清。,2018/10/27,24,(1)直接法 当例数较少时,先将变量值由小到大顺序排列,再按以下公式计算。,n为奇数时,n为偶数时,式中X的下标为变量值的位置。,2018/10/27,25,例2-7 某药厂观察9只小鼠口服高山红景天醇提物后在乏氧条件下的生存时间(min)如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,68.9,69.0。试求其中位数。本例n=9,为奇数,如果n=10例,生存时间为69.6,则中位数为,2018/10/27,26,(2)频率表法 当例数较多时,先将变量值从小到大编制频率表,并分别计算累计频数和累计频率(见表2-5)。先从累计频率找

10、出M所在的组段,然后按下式计算。,式中L为中位数所在组段的下限,i为该组段的组距,fm为该组段的频数,fL为小于L的各组段累计频数。例2-8 50例链球菌咽颊炎患者的潜伏期(小时)如表2-5,试计算潜伏期的中位数。,2018/10/27,27,表2-5 50例链球菌咽颊炎患者的潜伏期(小时)的频率分布表,本例从累计频率看,M位于48组段,即L=48,i=12,fm=11, fL=19,(小时),2018/10/27,28,fL,M,fm,2018/10/27,29,1.百分位数百分位数(percentile,P)是一种位置指标,以Px表示。百分位数是将频数等分为一百的分位数。一组观察值从小到大

11、按顺序排列,理论上有x%的变量值比Px小,有(100x)%的变量值比Px大。故P50分位数也就是中位数,即P50=M 。百分位数的计算公式为,式中L为Px所在组段的下限,i为该组段的组距,fx为该组段的频数,fL为小于L的各组段累计频数。,2018/10/27,30,如 试求表2-5资料中百分位数P25、P75 。由表2-5累计频数栏可见P25在“36”组段,L=36,i=12, fx=11, fL=8,代入公式得,(小时),同理可知 P75在“72”组段,L=72,i=12, fx=5, fL=74,代入公式得,(小时),百分位数的使用条件同中位数一样。主要用途为:描述一组资料在某百分位置上

12、的水平;用于确定正常值范围;计算四分位数间距。,2018/10/27,31,四、众数( mode)一组数据中出现次数最多的数值,叫众数。众数在频率分布表中是频数最多的那一组的组中值,有时众数在一组数中有好几个或者没有众数。 例如:1,2,3,3,4的众数是3 ;1,2,2,3,3,4的众数是2和3;1,2,3,4,5没有众数;表2-5众数为42和54。,2018/10/27,32,第三节 描述离散趋势的统计指标例2-10 是观察三组数据的离散状况。A组:26,28,30,32,34;B组:24,27,30,33,36;C组:26,29,30,31,34。三组均数都是30。A组 . . . .

13、.B组 . . . . .C组 . . . . .常用的离散指标有:极差、四分位数间距、方差、标准差和变异系数,最常用的指标为标准差。,2018/10/27,33,一、极差和四分位数间距1.极差极差(range,R)亦称全距,即一组变量值中最大值与最小值之差。R值大,离散度就大;R值小,离散度就小。 A组: R=34-26=8B组:R=36-24=12C组:R=34-26=8 极差的特点是计算简单,但只考虑最大值和最小值,容易受个别极端值的影响,且不能反映组内其他变量值的离散情况。另外,当调查例数增多时,遇到较大或较小变量值的机会就大,极差就可能增大。,2018/10/27,34,2.四分位数

14、间距(quartile interval,Q)极差的不稳定主要受两端值的影响,如将两端数据各去掉一部分,这样所得的数据就比较稳定了。例如两端各去掉25,取中间50的数据的极差,这样可先计算P25和P75,求出P75与P25之差,即为四分位数间距。Q= P75P25P75又称为上四分位数(upper quartile ); P25又称为下四分位数(lower quartile )。,2018/10/27,35,例2-12 试计算表2-5中 50例链球菌咽颊炎患者的潜伏期(小时)的四分位间距。已知P75=73.20小时,P25=40.91小时,代入公式得Q=73.2040.91=32.29(小时)

15、由以上的结果可以看出:链球菌咽颊炎患者的潜伏期在40.9173.20小时之间,其四分位数间距为32.29小时。四分位数间距可用于各种分布资料,特别是偏态分布资料,经常把中位数和四分位间结合起来描述资料的集中趋势和离散趋势。,2018/10/27,36,二、方差和标准差方差(variance)和标准差(standard deviation)是描述对称分布,特别是正态分布或近似正态分布资料离散趋势(变异程度)的常用指标。1.方差总体方差用 表示,样本方差用S2表示。,2018/10/27,37,式中: n-1是自由度(degree of freedom),用希腊小写字母表示。它描述了当 不变的情况下,n个变量值(X)中能自由变动的变量值的个数。用n-1作分母,S2可作为 的无偏估计。对于频率表资料,如例2-10三组数据其方差为,2018/10/27,38,2.标准差标准差为方差的开方根,它与原始变量值单位相同。总体标准差用 表示 ,样本标准差用S表示。总体标准差计算公式为,样本标准差计算公式为,2018/10/27,39,对于频率表资料,例 2-14 计算例2-2数据的标准差。已算得fX0=2228, n=f=120, =43640,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号