卫生统计学第八版李晓松第一章数据分布的描述

上传人:sh****d 文档编号:115425321 上传时间:2019-11-13 格式:PPT 页数:59 大小:16MB
返回 下载 相关 举报
卫生统计学第八版李晓松第一章数据分布的描述_第1页
第1页 / 共59页
卫生统计学第八版李晓松第一章数据分布的描述_第2页
第2页 / 共59页
卫生统计学第八版李晓松第一章数据分布的描述_第3页
第3页 / 共59页
卫生统计学第八版李晓松第一章数据分布的描述_第4页
第4页 / 共59页
卫生统计学第八版李晓松第一章数据分布的描述_第5页
第5页 / 共59页
点击查看更多>>
资源描述

《卫生统计学第八版李晓松第一章数据分布的描述》由会员分享,可在线阅读,更多相关《卫生统计学第八版李晓松第一章数据分布的描述(59页珍藏版)》请在金锄头文库上搜索。

1、 欧春泉 南方医科大学 第一章 数据分布的描述 目录 第一节:数据分布表与直方图 第二节:集中位置 第三节:变异程度 第四节:箱式图 第五节:数据核查与离群值 01 02 03 04 05 05 06第六节:分类变量的常用统计图 重点难点 频数分布表与直方图的编制原则和方法 集中位置和变异程度的常用指标及其适用条件 基本箱式图和箱式百分位数图的绘制和作用 常用的逻辑核查方法 离群值的探索和处理方法 各种图形的适用条件 第一节 数据分布表与直方图 采用SF-36自测健康量表测得118名慢性鼻窦炎患者的生命质量评估总分如下: (一)频数分布表 第一节 数据分布表与直方图 7230805772727

2、230652510527582 5260657235624535306681655565 6780626245524745575267525740 6655624545527257575745555077 5572455035726047575260404545 6760404535507225604062405555 9265613535156587924085655772 7272403052455350525745453025 654025456545 1. 频数表的编制方法 (1)找出最小值和最大值,本例为10与92。 (2)计算全距 (range,R) :最大值与最小值之差,本例 R

3、=9210=82。 (3)确定组距:相邻两组之间的距离,组距=全距/组段数,通常组段数取812组。本 例共设9个组段,组距取10。 (4)确定组段的上、下限:每个组段的起点为下限(lower limit),终点为上限(upper limit)。每个组段均包含组段的下限值,最后一组的组段写出上限值。 (5)列表整理:计算频数、频率、累计频数及累计频率。 (一)频数分布表 第一节 数据分布表与直方图 广州市118名慢性鼻窦炎患者生命质量评估总分的频数分布表 (一)频数分布表 第一节 数据分布表与直方图 组段 (1) 频数 (2) 频率(%) (3) 累计频数 (4) 累计频率(%) (5) 10

4、2 1.69 2 1.69 20 4 3.39 6 5.08 3011 9.33 17 14.41 402521.19 42 35.59 502924.58 71 60.17 602521.19 96 81.36 701411.86110 93.22 80 6 5.08116 98.31 90100 2 1.69118100.00 合计118100.00 (二)直方图 第一节 数据分布表与直方图 慢性鼻窦炎患者生命质量评估总分的直方图 慢性鼻窦炎患者生命质量评估总分的直方图 (非等距分组造成错觉) 1. 分布形态分类 (1)对称分布:集中位置在正中,左右两侧频数分布对称。 (2)偏态分布:集中

5、位置偏向一侧,左右两侧频数分布不对称。 正偏态(positive skewness):有小部分数据偏大、直方图呈现右侧拖尾,又 称右偏态(right skewness); 负偏态(negative skewness):有小部分数据偏小、直方图呈现左侧拖尾,又 称左偏态(left skewness)。 (三)数据分布特征 第一节 数据分布表与直方图 (三)数据分布特征 第一节 数据分布表与直方图 分布形态图示: 成都市238名正常居民发汞值分布直方图 (三)数据分布特征 第一节 数据分布表与直方图 分布形态图示: 冠心病患者的年龄分布直方图 (三)数据分布特征 第一节 数据分布表与直方图 2.

6、集中趋势和离散趋势的描述 (1)集中趋势(central tendency):指一组数据向某一中心值靠拢的趋势,反映 了一组数据中心点的位置,是频数分布表和直方图中高峰所在位置,即频数最 大的组段。 (2)离散趋势(dispersion tendency):部分数据偏离中心位置的变异特征。 第二节 集中位置 第二节 集中位置 1. 集中位置(center) 反映一组观察值的平均水平或中心位置。描述 集中位置的常见指标有以下三种: (1)算术均数(arithmetic mean) (2)几何均数(geometric mean,G) (3)中位数(median,M) (一)算术均数 第二节 集中位

7、置 (一)算术均数 第二节 集中位置 基于频数分布表数据计算慢性鼻窦炎患者生命质量评估总分的均数 组段 (1) 频数( f i ) (2) 组中值(xMi) (3) fixMi (4)=(2)(3) 10 215 30 20 425 100 301135 385 4025451125 5029551595 6025651625 7014751050 80 685 510 90100 295 190 合计1186610 (二)几何均数 第二节 集中位置 1. 计算方法 (1)原始资料(直接法): (2)频数表资料(加权法): 2. 应用 几何均数常用于数据呈倍数变化或对数正态分布资料的平均水平,

8、 计算几何均数时,观察值中不能有零且不能同时有正数和负数。 (二)几何均数 第二节 集中位置 广州市6名3岁以上儿童接种麻疹疫苗后,麻疹IgG抗体滴度水平如下: 1:200,1:800,1:800,1:800,1:3200,1:12800。计算6名儿 童麻疹IgG抗体滴度的几何均数。 求G的倒数,得到6名儿童接种麻疹疫苗后麻疹IgG抗体滴度的几何均数 为1:1270。 (二)几何均数 第二节 集中位置 下表是262名患儿体内肺炎支原体抗体滴度水平,计算其平均抗体滴度。 262名患儿体内肺炎支原体抗体滴度水平 抗体滴度 (1) 频数 (2) 抗体滴度倒数 (3) 抗体滴度倒数的对数 (4) 抗体

9、滴度倒数的对数和 (5)=(2)(4) 1:8097 804.38 424.86 1:16056 1605.08 284.48 1:32042 3205.77 242.34 1:64021 6406.46 135.66 1:12804612807.15 328.90 合计2621416.24 即262名患儿体内肺炎支原体抗体平均滴度水平为1:223。 (三)中位数 第二节 集中位置 (三)中位数 第二节 集中位置 下表是成都市238名正常居民发汞含量测量结果,求发汞含量的中位数。 组段 (1) 频数 (2) 频率(%) (3) 累计频数 (4) 累计频率(%) (5) 0.319 7.98 1

10、9 7.98 0.76226.05 8134.03 1.16326.4714460.50 1.55121.4319581.93 1.922 9.2421791.18 2.313 5.4623096.64 2.7 4 1.6923498.32 3.1 1 0.4223598.74 3.5 2 0.8423799.58 3.94.3 1 0.42238100.00 合计238100.00238 从第(5)列可知,累计有34.03%的观 测值小于1.1,有60.50%的观测值小 于1.5,故可判断P50在1.11.5这个组 段,代入公式得: 238名居民发汞含量(g/g)的频数分布表 (三)中位数

11、第二节 集中位置 2. 中位数的应用 (1)对任何资料(对称分布、偏态分布、分布未知或分布末端有极端值、不确定 值) 都适用。日常应用中,对称分布资料更常用均数。 (2)与均数相比,中位数存在一些不足: 中位数未考虑大部分观测值的实际大小,而均数充分利用了全部数据的信息 ; 两组数据合并时,合并后的中位数不能用原来两组的中位数表达,而均数可 基于两组的均数和例数用求得; 均数可通过如估计截尾均数等方法进行修正,而中位数无法进行此修正。 第二节 集中位置 不同分布中三种指标的大小比较 第三节 变异程度 第三节 变异程度 三组儿童身高特征的比较示意图 仅描述数据的集中位置还不足以反映数据完整的分布

12、特征 第三节 变异程度 1. 变异(variation) 一组数据中个体值之间的差异。描述变异程度的 常见指标有: (1)极差 (2)四分位数间距(inter-quartile range,IQR) (3)方差(variance) (4)标准差(standard deviation,SD) (5)变异系数(coefficient of variation,CV) (一)极差 第三节 变异程度 1. 极差(range,R)也称全距,为所有观测值中最大值与最小值之差。 极差越大说明数据变异程度越大。可用来反映传染病、食物中毒的最短和 最长潜伏期等。 2. 极差的不足之处 (1)仅用到最大值和最小值

13、的信息,不能反映组内其他数据的变异情况。 (2)极差与样本例数有关。一般地,样本量越大,得到较大或较小变量值的 可能性越大,极差就可能越大,故样本量相差较大时,不宜采用极差进行比较 。 (二)四分位数间距 第三节 变异程度 四分位数间距(inter-quartile range,IQR) IQR可看做中间一半观测值的极差R,适于偏态分布或分布未知资料,由于不受两端极 大或极小数据的影响,四分位数间距比极差更为稳定,但仍未考虑每个观测值的变异。 常与中位数一起使用,综合反映数据的平均水平和变异程度,写成M(P25, P75)。适于 P0 P25 P50 P75 P100 Min 下四分位数(QL

14、) 中位数 上四分位数(QU) Max IQR=P75P25 (三)方差与标准差 第三节 变异程度 方差(variance)是指所有观测值的离均差平方和的平均值,描述所有观测 值与均数的平均偏离程度;标准差(standard deviation,SD)是方差的平方 根。 方 差: 标准差:s (三)方差与标准差 第三节 变异程度 (四)变异系数 第三节 变异程度 (四)变异系数 第三节 变异程度 第三节 变异程度 特征指 标应 用 集中位置 均数对称分布 几何均数对数正态、等比资料 中位数偏态分布、分布不明、末端有不确定值 变异程度 极差偏态分布 四分位间距偏态分布、分布不明、末端有不确定值

15、方差/标准差对称分布 变异系数单位不同、均数相差悬殊、评价测量精度 集中位置和变异程度指标小结: 第四节 箱式图 (一)箱式图 第四节 箱式图 15例大骨节病患者白细胞数箱式图 1. 表示中位数的横线在箱体中间位置 则表明数据呈对称分布。 2. 中间横线靠下端则提示右偏态分布 。 3. 中间横线靠上端则提示左偏态分布 。 (一)箱式图 第四节 箱式图 广州市一项关于慢性鼻窦炎患病率的横断面调查中,用SF-36量表测得所有调查对 象的生活质量,所调查的1411名成年居民中有118名患有慢性鼻窦炎。以慢性鼻窦炎患 者和正常人的精力评分为例,绘制箱式图。 正常人与慢性鼻窦炎患者精力评分箱式图 “”表

16、示均数 “”表示离群值 (二)箱式百分位数图 第四节 箱式图 1. 箱式百分位数图(box-percentile plot)结合了箱式图和直方图的功能,不仅给 出了几个关键的百分位数,还描述了整个数据的分布形态。箱体中间部分最宽 ,越往两端越窄。 2. 制作方法 首先将n个观测值从小到大排列,假设箱体最中间(中位数位置 ) 宽度为w,则将数据从小到大排列后第k个观测值xk所在位置的箱体宽度为 : (二)箱式百分位数图 第四节 箱式图 以下为慢性鼻窦炎患者健康评估总分同时绘制了箱式图与箱式百分位数 图,箱式百分位数图呈梭型左右对称。若关于中位数上下对称则提示资料呈 对称分布。 慢性鼻窦炎患者健康评估总分的箱式图(A)和箱式百分位数图(B) (二)箱式百分位数图 第四节 箱式图 慢性鼻窦炎患者精力评分的箱式图(A)和箱

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号