卫生统计学第7版-方积乾主编-课件第二章-定量资料的统计描述.ppt

上传人:F****n 文档编号:109930005 上传时间:2019-10-28 格式:PPT 页数:69 大小:597KB
返回 下载 相关 举报
卫生统计学第7版-方积乾主编-课件第二章-定量资料的统计描述.ppt_第1页
第1页 / 共69页
卫生统计学第7版-方积乾主编-课件第二章-定量资料的统计描述.ppt_第2页
第2页 / 共69页
卫生统计学第7版-方积乾主编-课件第二章-定量资料的统计描述.ppt_第3页
第3页 / 共69页
卫生统计学第7版-方积乾主编-课件第二章-定量资料的统计描述.ppt_第4页
第4页 / 共69页
卫生统计学第7版-方积乾主编-课件第二章-定量资料的统计描述.ppt_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《卫生统计学第7版-方积乾主编-课件第二章-定量资料的统计描述.ppt》由会员分享,可在线阅读,更多相关《卫生统计学第7版-方积乾主编-课件第二章-定量资料的统计描述.ppt(69页珍藏版)》请在金锄头文库上搜索。

1、2019/10/28,1,第二章 定量资料的统计描述,2019/10/28,2,学习要求 了解:应用SAS程序编制频率表的方法和means、univariate过程对定量资料的描述。 熟悉:定量资料频率表的编制方法和用途。 掌握:算术均数、几何均数、中位数的计算方法和使用条件;四分位间距、方差、标准差、变异系数的计算方法和使用条件。,2019/10/28,3,统计描述是用统计图表、统计指标来描述资料的分布规律及其数量特征的。 第一节 频率分布表与频率分布图 医学研究资料变量值的个数较多时,对个变量值出现的频数或频率列表即为频数分布表或频率分布表(frequency distribution t

2、able),简称频数表或频率表。,2019/10/28,4,一、离散型定量变量的频率分布 例2-1 1998年某山区96名孕妇产前检查次数资料,编制频率表。 表2-1 1998年某地96名孕妇产前检查次数频率分布,2019/10/28,5,图2-1 1998年某地96名孕妇产前检查次数频率分布,离散型定量变量的频率分布图可用直条图表达,以等宽直条的高度表示各组频率的多少,2019/10/28,6,二、连续型定量变量的频率分布,例2-2 抽样调查某地120名1835岁健康男性居民血清铁含量(mmo/L),数据如下。试编制血清铁含量的频率分布表。,2019/10/28,7,频率表的编制步骤如下:

3、1. 计算极差 (range, R),亦称全距,即最大值与最小值之差。本例最大值为29.64,最小值为7.42,故R=29.64-7.42=22.22 (mmo/L)。 2. 确定组段数与组距(class interval) 组段数一般取10组左右。组距用i表示,组距=极差/组段数,本例拟分10组,i=22.22/10=2.22,一般取靠近的整数作为组距,本例取i2。 3. 确定各组段的上、下限 每个组段的起点称为组段的下限,终点称为组段的上限。第一组段要包括最小值,其下限取小于或等于最小值的整数,本例取6最为第一组段的下限(也可取7),最后一个组段要包括最大值。注意各组段不能重合,每组段只写

4、出下限,如6,8,最后一个组段可包括其上限值,如本例2830。 4. 列表 清点各组的频数,计算频率、累积频率数和累计频率。,2019/10/28,8,表2-2 120名正常成年男子血清铁含量(mmo/L)频率分布,2019/10/28,9,图2-2 120名健康成年男子血清铁含量(mol/L)分布,2019/10/28,10,2-2 120名健康成年男子血清铁含量(mmo/L)分布,2019/10/28,11,三、频率分布表(图)的用途 1.揭示资料的分布类型,2019/10/28,12,正偏态(右偏态),负偏态(左偏态),2.观察资料的集中趋势和离散趋势 3.便于发现某些特大或特小的可疑值

5、 4.便于进一步计算统计指标和作统计处理,2019/10/28,13,第二节 描述集中趋势的统计指标,医学定量资料中,描述集中趋势的统计指标主要有算术均数、几何均数和中位数。 一、算术均数(arithmetic mean) 简称均数。均数适用于对称分布或近似对称分布的资料。习惯上以希腊字母 表示总体均数(population mean),以表示样本均数 (sample mean)。常用计算方法有直接法和频率表法(亦称加权法)。,2019/10/28,14,1.直接法,例2-3 测得8至正常大白鼠血清总酸性磷酸酶(TACP)含量 (U/L)为4.20,6.43,2.08,3.45,2.26,4.

6、04,5.42,3.38。试求其算术均数。 本例,(U/L),2019/10/28,15,2.频率表法 当变量值的个数较多时,在编制频率表的基础上,应用加权法计算均数的近似值。,公式中,f 为各组段的频数,X0为各组段的组中值, X0=(组段上限+组段下限)/2。 例2-4,(mmo/L),如用直接法计算, =18.61(mmo/L),2019/10/28,16,表2-3 频数表法计算均数,2019/10/28,17,二、几何均数(geometric mean,) 几何均数使用于原始变量不呈对称分布,但对变量经对数转换后呈对称分布的资料,又称对数正态分布资料。常见于正偏态分布资料,如抗体滴度,

7、某些传染病的潜伏期,细菌计数等。计算公式亦可用直接法和频数表法。,1.直接法 对数的形式为,2019/10/28,18,例2-5 7名慢性迁延型肝炎患者的HBsAg滴度资料为: 1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。 本例先求平均滴度的倒数,7名慢性迁延型肝炎患者的HBsAg滴度几何均数为1:64。,2019/10/28,19,2.频率表法:当资料中相同变量值的个数f(即频数)较多时,可通过频率表法计算几何均数,公式为,表2-4 52例慢性肝炎患者的 HBsAg滴度资料,2019/10/28,20,本例f lgX= 108.06977 ,

8、f=52,代入公式得,52例慢性肝炎患者的 HBsAg滴度的几何均数为1:119.75 计算几何均数应注意:变量值中不能有0;不能同时有正值和负值;若全是负值,计算时可先把负号去掉,得出结果后再加上负号。,2019/10/28,21,2019/10/28,22,2019/10/28,23,2019/10/28,24,三、中位数及百分位数 1.中位数(median , M) 将一组变量值从小到大按顺序排列,位次居中的变量值称为中位数。在全部变量值中,大于和小于中位数的变量值的个数相等。 用中位数表示平均水平主要适用于:变量值中出现个别特小或特大的数值;资料的分布呈明显偏态,即大部分的变量值偏向一

9、侧;变量值分布一端或两端无确定数值,只有小于或大于某个数值;资料的分布不清。,2019/10/28,25,(1)直接法 当例数较少时,先将变量值由小到大顺序排列,再按以下公式计算。,n为奇数时,n为偶数时,式中X的下标为变量值的位置。,2019/10/28,26,例2-7 某药厂观察9只小鼠口服高山红景天醇提物后在乏氧条件下的生存时间(min)如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,68.9,69.0。试求其中位数。 本例n=9,为奇数,如果n=10例,生存时间为69.6,则中位数为,2019/10/28,27,(2)频率表法 当例数较多时,先将变量值从小到

10、大编制频率表,并分别计算累计频数和累计频率(见表2-5)。先从累计频率找出M所在的组段,然后按下式计算。,式中L为中位数所在组段的下限,i为该组段的组距,fm为该组段的频数,fL为小于L的各组段累计频数。 例2-8 50例链球菌咽颊炎患者的潜伏期(小时)如表2-5,试计算潜伏期的中位数。,2019/10/28,28,表2-5 50例链球菌咽颊炎患者的潜伏期(小时)的频率分布表,本例从累计频率看,M位于48组段,即L=48,i=12,fm=11, fL=19,(小时),2019/10/28,29,fL,M,fm,2019/10/28,30,1.百分位数 百分位数(percentile,P)是一种

11、位置指标,以Px表示。百分位数是将频数等分为一百的分位数。一组观察值从小到大按顺序排列,理论上有x%的变量值比Px小,有(100x)%的变量值比Px大。故P50分位数也就是中位数,即P50=M 。百分位数的计算公式为,式中L为Px所在组段的下限,i为该组段的组距,fx为该组段的频数,fL为小于L的各组段累计频数。,2019/10/28,31,如 试求表2-5资料中百分位数P25、P75 。 由表2-5累计频数栏可见P25在“36”组段,L=36,i=12, fx=11, fL=8,代入公式得,(小时),同理可知 P75在“72”组段,L=72,i=12, fx=5, fL=74,代入公式得,(

12、小时),百分位数的使用条件同中位数一样。主要用途为:描述一组资料在某百分位置上的水平;用于确定正常值范围;计算四分位数间距。,2019/10/28,32,四、众数( mode) 一组数据中出现次数最多的数值,叫众数。众数在频率分布表中是频数最多的那一组的组中值,有时众数在一组数中有好几个或者没有众数。 例如:1,2,3,3,4的众数是3 ;1,2,2,3,3,4的众数是2和3;1,2,3,4,5没有众数;表2-5众数为42和54。,2019/10/28,33,第三节 描述离散趋势的统计指标 例2-10 是观察三组数据的离散状况。A组:26,28,30,32,34;B组:24,27,30,33,

13、36;C组:26,29,30,31,34。三组均数都是30。 A组 . . . . . B组 . . . . . C组 . . . . . 常用的离散指标有: 极差、四分位数间距、方差、标准差和变异系数,最常用的指标为标准差。,2019/10/28,34,一、极差和四分位数间距 1.极差 极差(range,R)亦称全距,即一组变量值中最大值与最小值之差。R值大,离散度就大;R值小,离散度就小。 A组: R=34-26=8 B组:R=36-24=12 C组:R=34-26=8 极差的特点是计算简单,但只考虑最大值和最小值,容易受个别极端值的影响,且不能反映组内其他变量值的离散情况。另外,当调查例

14、数增多时,遇到较大或较小变量值的机会就大,极差就可能增大。,2019/10/28,35,2.四分位数间距(quartile interval,Q) 极差的不稳定主要受两端值的影响,如将两端数据各去掉一部分,这样所得的数据就比较稳定了。例如两端各去掉25,取中间50的数据的极差,这样可先计算P25和P75,求出P75与P25之差,即为四分位数间距。 Q= P75P25 P75又称为上四分位数(upper quartile ); P25又称为下四分位数(lower quartile )。,2019/10/28,36,例2-12 试计算表2-5中 50例链球菌咽颊炎患者的潜伏期(小时)的四分位间距。

15、 已知P75=73.20小时,P25=40.91小时,代入公式得 Q=73.2040.91=32.29(小时) 由以上的结果可以看出:链球菌咽颊炎患者的潜伏期在40.9173.20小时之间,其四分位数间距为32.29小时。 四分位数间距可用于各种分布资料,特别是偏态分布资料,经常把中位数和四分位间结合起来描述资料的集中趋势和离散趋势。,2019/10/28,37,二、方差和标准差 方差(variance)和标准差(standard deviation)是描述对称分布,特别是正态分布或近似正态分布资料离散趋势(变异程度)的常用指标。 1.方差 总体方差用 表示,样本方差用S2表示。,2019/1

16、0/28,38,式中: n-1是自由度(degree of freedom),用希腊小写字母表示。它描述了当 不变的情况下,n个变量值(X)中能自由变动的变量值的个数。用n-1作分母,S2可作为 的无偏估计。 对于频率表资料,如例2-10三组数据其方差为,2019/10/28,39,2.标准差 标准差为方差的开方根,它与原始变量值单位相同。总体标准差用 表示 ,样本标准差用S表示。 总体标准差计算公式为,样本标准差计算公式为,2019/10/28,40,对于频率表资料,例 2-14 计算例2-2数据的标准差。 已算得fX0=2228, n=f=120, =43640,(mol/L),对于正态分布资料,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 幼儿/小学教育 > 小学教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号