医用统计方法PPT课件

资源描述

《医用统计方法PPT课件》由会员分享，可在线阅读，更多相关《医用统计方法PPT课件（207页珍藏版）》请在金锄头文库上搜索。

1、医用统计方法 1 第一章绪论一什么是统计学二什么是医学统计学三统计学中常用名词四统计分析资料的类型五统计工作基本步骤 2 一什么是统计学统计学 statistics 是研究数据的收集整理和分析的一门科学理论基础数理统计概率论目的透过现象看本质 3 二什么是医学统计学医学统计学是研究临床医学领域数据的收集整理和分析的一门科学 4 三统计学中常用名词变量随机变量观察个体的某项特征定义为变量变量的观测结果变量值根据变量值的特征变量分为数值变量分类变量 5 数值变量定量变量变量值既有大小又有度量衡单位连续型数值变量如身高体重等离散型数

2、值变量 6 分类变量定性变量变量值表现为互不相容的类别或属性根据类别或属性之间有无程度性差别分类变量分为无序分类变量有序分类变量 7 无序分类变量两分类变量多分类变量 8 有序分类变量如尿糖化验结果按分类疗效按治愈显效好转无效分类 9 变量间的转化数值变量两分类变量有序分类变量 b分类变量数值化 10 连续型数值变量数值变量离散型数值变量变量两分类变量无序分类变量分类变量多分类变量有序分类变量 11 同质对所研究指标有影响的非实验性因素相同变异同质基础之上个体之间的差异 12 总体根据研究目的所确定的同质观察单位全体根据有无明确的时空总体分为有限总体无限总体

3、13 样本按照随机化原则从总体中抽取部分个体组成的集合样本容量样本的代表性 14 参数根据总体得到的指标称为参数统计量根据样本得到的指标称为统计量统计量参数 15 抽样误差统计量与参数统计量与统计量之间的差异称为抽样误差 9 概率某随机事件发生可能性大小的量用P表示P 0 05或P 0 01小概率事件 16 四统计分析资料的类型 1 数值变量资料计量资料 2 分类变量资料计数资料 3 等级资料半定量资料 17 五统计工作基本步骤 1 设计2 资料收集3 资料整理4 资料分析 18 资料的统计描述资料统计分析参数估计资料的统计推断假设检验 19 第二章数值变量资料的

4、统计描述 20 例 21 一频数表 frequencytable 的编制1 求全距 range 找出观察值中的最大值与最小值其差值即为全距或极差用R表示 2 确定组数 n 一般设10 15个组 3 确定组距 i i R n4 确定组限 L 第一组段应包括全部观察值中的最小值最末组段应包括全部观察值中的最大值并且同时写出其下限与上限 5 列表划记 22 某地110名8岁男孩身高 cm 的频数表 23 二直方图频数人身高 cm 24 三描述集中趋势的指标平均数平均数描述一组同质观察值的平均水平处于中心位置的指标体系均数几何均数平均数中位数众数调和平均数 25 1 均数

5、算术均数样本均数总体均数 1 适用条件变量值呈对称分布尤其呈正态或近似正态分布 2 计算直接法用于样本含量较少时其公式为加权法用于频数表资料或样本中相同观察值较多时其公式为 26 2 几何均数 geometricmean 用G表示 1 适用条件变量值呈对数正态分布即数据经过对数变换后呈正态分布呈等比级数资料即观察值之间呈倍数或近似倍数变化 2 计算直接法加权法 3 注意事项观察值中不能有0 因0不能取对数一组观察值中不能同时有正或负值 27 3 中位数 median 用M表示 1 定义一组由小到大按顺序排列的观察值中位次居中的数值在全部观察中小于和大于

6、中位数的观察值个数相等 2 适用条件变量值呈非正态分布资料对数正态分布除外频数分布的一端或两端无确切数据的资料总体分布不清楚的资料 3 计算直接法将观察值由小到大排列n为奇数 n为偶数 28 频数表法用于频数表资料百分位数 percentile 用Px表示一个百分位数Px将一组观察值分为两部分理论上有X 的观察值比它小有 100 X 的观察值比它大是一种位置指标中位数是一个特定的百分位数即M P50 Px计算公式首先要确定Px所在的组段如何确定根据累计频数或累计频率 29 例 199名食物中毒患者潜伏期的M和PX的计算M P50 12 12 71 199 50

7、 30 23 75 小时 30 四描述离散趋势的指标全距四分位数间距变异指标方差标准差变异系数 31 1 全距 range 简记为R 亦称极差是一组同质观察值中最大值与最小值之差它反映了个体差异的范围全距大说明变异度大反之全距小说明变异度小用全距描述定量资料的变异度大小虽然计算简单但不足之处有只考虑最大值与最小值之差异不能反映组内其它观察值的变异度样本含量越大抽到较大或较小观察值的可能性越大则全距可能越大因此样本含量相差悬殊时不宜用全距比较 32 2 四分位数间距 quartile 简记为Q 为上四分位数QU 即P75 与下四分位数QL 即P25 之差四分

8、位数间距可看成是中间50 观察值的极差其数值越大变异度越大反之变异度越小由于四分位数间距不受两端个别极大值或极小值的影响因而四分位数间距较全距稳定但仍未考虑全部观察值的变异度常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度 33 3 方差 variance 2s2离均差每个观察值X与总体均数的差值 X 离均差和 X 0离均差平方和 X 2 0n 1称为自由度 degreeoffreedom 34 4 标准差 standarddeviation s 35 直接法加权法 36 标准差的应用 1 结合均数描述变量值的分布特征 X S 2 计算标准误 3 计算变异

9、系数 CV 37 5 变异系数 coefficientofvariation 简记为CV 应用于两种情况 1 比较度量单位不同 2 均数相差悬殊的两组或多组资料的变异度 38 正态分布及其应用 39 一正态分布对应的几何图形 40 钟型曲线对应的f x 正态分布概率密度函数定义域 x 41 42 二正态分布的特征 1 正态分布曲线 normalcurve 在横轴上方且均数处最高非负性 43 2 正态分布以均数为中心左右对称对称性 44 3 正态分布有两个参数即均数和标准差是位置参数是形状参数通常用表示正态分布 45 标准差相同均数不同的四条正态曲线 46 均数相同标准差不同

10、的四条正态曲线 47 4 正态分布曲线下面积分布有规律 48 三正态分布曲线下面积分布规律正态分布曲线与横轴上任一区间围成的面积可通过函数积分来得到 49 正态分布标准正态分布u被称为标准正态变量或标准正态离差 u服从总体均数为0 总体标准差为1的正态分布我们将此分布称为标准正态分布用N 0 1 表示 50 51 标准正态分布曲线下面积规律 1 整个曲线下面积为1 2 U 1 96 1 96 与标准正态分布曲线围成的面积为 0 95或95 3 U 2 58 2 58 与标准正态分布曲线围成的面积为 0 99或99 52 53 四正态分布的应用1 估计正态分布资料的频数分布某地1993

11、年抽样调查了100名18岁男大学生身高 cm 其均数 172 70cm 标准差s 4 01cm 实际分布与理论分布的比较 100名18岁男大学生身高的实际分布与理论分布 54 2 制定医学参考值范围亦称医学正常值范围 1 首先要确定一批样本含量足够大的正常人所谓正常人不是指健康人而是指排除了影响所研究指标的疾病和有关因素的同质人群 2 其次需根据研究目的和使用要求选定适当的百分界值如80 90 95 和99 常用95 3 根据指标的实际用途确定单侧或双侧界值 4 根据资料的分布特点选用恰当的计算方法方法正态分布法适用于正态或近似正态分布的资料对数正态分布法适用于对数

12、正态分布资料百分位数法常用于偏态分布资料以及资料中一端或两端无确切数值的资料 55 56 3 正态分布是许多统计方法的理论基础如t分布 F分布等都是在正态分布的基础上推导出来的 u检验也是以正态分布为基础的此外 t分布二项分布 Poisson分布的极限为正态分布在一定条件下可以按正态分布原理来处理 57 数值变量资料的统计推断参数估计一均数的抽样误差由于个体变异的存在在抽样研究中产生的样本均数与相应的总体均数间的差异样本均数与样本均数间的差异称为均数抽样误差 samplingerror 均数的抽样误差是不可避免的但均数的抽样误差是可控制的二衡量均数的抽样误差大小的

13、指标标准误 58 中心极限定理若从均数为的正态总体中以固定n反复多次比如100次抽样时所得的样本均数的分布是正态分布即使是从偏态总体中抽样只要足够大的分布也近似正态分布样本均数的标准差均数的标准误 59 均数标准误的用途 1 衡量样本均数的可靠性由于均数标准误越小均数的抽样误差越小样本均数就越可靠 2 估计总体均数的可信区间 3 用于均数的假设检验 60 三 t分布统计量t值的分布称为t分布统计量t值 t 61 t分布有如下特征 1 以0为中心左右对称的单峰分布 2 t分布是一簇曲线其形态变化与n 确切地说与自由度大小有关自由度越小 t分布曲线越低平自由

14、度越大 t分布曲线越接近标准正态分布 u分布曲线 62 自由度为1 5 的t分布 63 t界值表 64 四总体均数的估计点估计 pointestimation 方法区间估计 intervalestimation 65 1 点估计 pointestimation 66 2 区间估计 intervalestimation 按一定的概率可信度估计未知的总体参数可能所在的范围或称可信区间可信度 95 或99 以求总体均数的95 可信区间为例介绍其计算方法 67 1 已知时u分布法由u分布可知正态曲线下有95 的u值在 1 96之间即 P 1 96 u 1 96 0 95P 1

15、96 1 96 0 95移项后整理得故总体均数的95 可信区间为 68 2 未知但n足够大如n 100 时 u分布法由t分布可知当自由度越大 t分布越逼近u分布此时t曲线下有95 的t值在 1 96之间即 P 1 96 t 1 96 0 95P 1 96 1 96 0 95P 0 95故总体均数的95 可信区间为 69 3 未知且n小时 t分布法某自由度的t曲线下有95 的t值在之间即故总体均数的95 可信区间为 70 例对某人群随机抽取20人用某批号的结核菌素作皮试平均浸润直径为10 9cm 标准差为3 86cm 问这批结核菌素在该人群中使用时皮试的平均浸

16、润直径的95 可信区间是多少该例n 20 n较小按t分布法计算 20 1 19 查t界值表得 2 093估计这批结核菌素在该人群中使用皮试的平均浸润直径的95 可信区间为 10 9 2 093 3 86 10 9 2 093 3 86 cm 即 9 1 12 7 cm 71 可信区间的注意问题 1 可信区间的涵义意思是从总体中作随机抽样每个样本可以算得一个可信区间如95 可信区间意味着做100次抽样算得100个可信区间平均有95个估计正确估计错误的只有5次 5 是小概率事件实际发生的可能性很小当然这种估计方法会有5 犯错误的风险 2 可信区间的两个要素 1 是准确度反映在可信度的大小即区间包含总体均数的概率的大小愈接近1愈好 2 是精密度反映在区间的长度长度愈小愈好在样本含量确定的情况下二者是矛盾的若只管提高可信度会把区间变得很长故不宜认为99 可信区间比95 可信区间好需要兼顾准确度和精密度一般来说95 可信区间更为常用在可信度确定的情况下增加样本含量可减少区间长度提高精密度 72 数值变量资料的统计推断假设检验 73 例医生

展开阅读全文