医学统计学预防医学说课讲解

上传人:博****1 文档编号:573870600 上传时间:2024-08-15 格式:PPT 页数:261 大小:4.38MB
返回 下载 相关 举报
医学统计学预防医学说课讲解_第1页
第1页 / 共261页
医学统计学预防医学说课讲解_第2页
第2页 / 共261页
医学统计学预防医学说课讲解_第3页
第3页 / 共261页
医学统计学预防医学说课讲解_第4页
第4页 / 共261页
医学统计学预防医学说课讲解_第5页
第5页 / 共261页
点击查看更多>>
资源描述

《医学统计学预防医学说课讲解》由会员分享,可在线阅读,更多相关《医学统计学预防医学说课讲解(261页珍藏版)》请在金锄头文库上搜索。

1、医学统计学(预防医学)主主 要要 内内 容容1 12 23 34 4 前言前言前言前言医学研究资料的统计处理医学研究资料的统计处理医学研究资料的统计处理医学研究资料的统计处理统计表与统计图统计表与统计图统计表与统计图统计表与统计图医学统计资料的统计描述医学统计资料的统计描述医学统计资料的统计描述医学统计资料的统计描述统计学是收集、分析、解释与呈现数据资料的一门科学。医学统计学医学统计学 -是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门科学。 什么是统计学什么是统计学?天气预报生活中的统计数据数据处理的工具和技能同质与变异变量与变量值参数与统

2、计量总体和样本概率误差二、医学研究资料的统计处理二、医学研究资料的统计处理(一)常用基本概念(一)常用基本概念v同质与变异 同质:被研究指标的影响因素相同 。 e.g.比较两种不同药物的降压效果。 在医学研究中,对被观测指标有影响的可控制的非实验因素非实验因素达到相同或基本相同相同或基本相同就可认为是同质。 同质性是构成研究总体的必备条件;同质性是构成研究总体的必备条件;研究内容不同,对同质性的要求不同;研究内容不同,对同质性的要求不同; 实验因素实验因素观测指标观测指标实验因素实验因素观测指标观测指标制定血红蛋白参考值范围时:制定血红蛋白参考值范围时:制定白细胞参考值范围时:制定白细胞参考值

3、范围时:v同质与变异同质与变异 变异变异(variation)是指在同质的基础上各观察单是指在同质的基础上各观察单位位(或个体或个体)之间的差异。之间的差异。e.g.同为20岁健康男大学生,身高有高有矮、体重有重有轻,这种差异就是变异。不可控因素作用下所产生的一种综合表现。不可控因素作用下所产生的一种综合表现。 结果是随机的。结果是随机的。个体变异是普遍存在的。个体变异是普遍存在的。个体变异是有规律的。个体变异是有规律的。没有个体变异,就没有统计学!没有个体变异,就没有统计学!(一)常用基本概念v变量及变量值 变量变量是指观察单位的某项特征或指标。是指观察单位的某项特征或指标。e.g. 人的年

4、龄、性别、身高、体重等。人的年龄、性别、身高、体重等。 变量值变量值是变量的观察结果。是变量的观察结果。e.g. 定性结果:男、女;已婚、未婚定性结果:男、女;已婚、未婚 定量结果:厘米、千克定量结果:厘米、千克(一)常用基本概念(一)常用基本概念v总体和样本总体是根据研究目的确定的同质观察单位某种变量值的集合。 有限总体:调查某地成年女性红细胞数。有限总体:调查某地成年女性红细胞数。 无限总体:调查无限总体:调查A厂厂30岁成年女性红细胞数。岁成年女性红细胞数。样本样本是指在研究总体中是指在研究总体中随机随机抽出一部分个体进抽出一部分个体进 行观察或测量,这些个体的测量值构成的集行观察或测量

5、,这些个体的测量值构成的集合。合。挪威统计学家凯尔挪威统计学家凯尔(A.N.Kiaer),1895年提出抽样调查。年提出抽样调查。v参数与统计量 描述总体特征的有关指标,称为参数。未知的,固有的,不变的!未知的,固有的,不变的! 反映样本特性的有关指标,称为统计量。已知的,变化的,有误差的!已知的,变化的,有误差的!(一)常用基本概念平均身高平均身高总体总体样本样本平均身高平均身高总体参数总体参数样本统计量样本统计量v概率概率又称机率。是描述事件发生可能性大小的一个度量,常用P来表示,取值范围为0P1。(一)常用基本概念1. 1. 不可能事件:不可能事件:P=0P=02. 2. 必然事件:必然

6、事件:P=1P=13. 3. 随机事件随机事件:0 0 P P1 1v随机随机机会均等机会均等随机抽样随机抽样 有相同的机会被抽到有相同的机会被抽到随机分组随机分组 有相同的机会被分到不同的组中有相同的机会被分到不同的组中实验顺序随机实验顺序随机先后接受处理的机会相同先后接受处理的机会相同 (一)常用基本概念抛硬币试验在概率的统计学定义上的诠释抛硬币试验在概率的统计学定义上的诠释试验者试验者投掷次数投掷次数出现出现“正面正面”次次数数频率频率X X X20120.6000Buffon404020480.5069K.Pearson1200060190.5016K.Pearson240001201

7、20.5005(一)常用基本概念当观察次数当观察次数n越来越大,频率越来越大,频率f的随机波动幅的随机波动幅度越来越小,并最终趋向于一个常数:度越来越小,并最终趋向于一个常数:随机事件A发生的概率 。频率:用随机事件用随机事件A发生表示观察到某个可能发生表示观察到某个可能的结果,则在的结果,则在n次观察中,其中有次观察中,其中有m次随机次随机事件事件A发生了,则称发生了,则称A发生的比例发生的比例 为为频率。显然有频率。显然有 。 (一)常用基本概念小概率原理当某事件发生的概率P0.05或P0.01时,统计学上称该事件为小概率事件,其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能发

8、生,此即为小概率原理。 小概率原理是进行统计推断的依据。小概率原理是进行统计推断的依据。(一)常用基本概念小概率原理v 小概率事件在一次试验中认为是不会发生的。小概率事件在一次试验中认为是不会发生的。v误差误差指实际测量值与真实什之差。(一)常用基本概念1. 1. 系统误差:系统误差:P=0 P=0 可避免可避免2. 2. 随机测量误差:随机测量误差:P=1 P=1 不可避免不可避免, ,可控可控3. 3. 抽样误差抽样误差:0 0 P P1 1 不可避免不可避免, ,不可控不可控1. 1. 系统误差:系统误差:P=0 P=0 可避免可避免2. 2. 随机测量误差:随机测量误差:P=1 P=1

9、 不可避免不可避免, ,可控可控3. 3. 抽样误差抽样误差:0 0 P P1 1 不可避免不可避免, ,不可控不可控(一)常用基本概念v抽样误差抽样误差指指由抽样引起的样本统计量与总体参数间的差别。原因:个体差异抽样表现:表现:样本统计量与总体参数间的差别样本统计量与总体参数间的差别不同样本统计量间的差别不同样本统计量间的差别抽样误差是有规律的!抽样误差是有规律的! 数值变量资料分类变量资料(二)医学统计资料的类型无序多分类无序多分类有序多分类有序多分类(等级资料等级资料) 二分类二分类 多分类多分类 二分类二分类 多分类多分类无序多分类无序多分类有序多分类有序多分类(等级资料等级资料)无序

10、多分类无序多分类有序多分类有序多分类(等级资料等级资料) 二分类二分类 多分类多分类无序多分类无序多分类有序多分类有序多分类(等级资料等级资料)v数值变量资料数值变量资料以定量方法表达每个观察单位的某项观察指标,又称定量资料或计量资料。 变量值是固定的,有度量衡单位:cm、kg、kPa特征 数据间有连续性:体重55kg60kg 统计描述指标有 统计推断方法:t检验、u检验、方差分析、相关回归(二)医学统计资料的类型 集中趋势:平均数集中趋势:平均数 离散趋势:标准差离散趋势:标准差v分类变量资料分类变量资料将观察单位按某种属性来分类计数的资料,亦称定性或计数资料。 数据为整数,无度量衡单位特征

11、 统计描述指标常用相对数:率、构成比、相对比 统计推断方法:u检验、X2检验分类 (二)医学统计资料的类型 二分类:有效、无效;阴性、阳性二分类:有效、无效;阴性、阳性 多分类:血型多分类:血型: A、B 、O 、AB无序多分类无序多分类有序多分类:有序多分类:(等级资料等级资料)治愈治愈、好转、无效、死亡;、好转、无效、死亡; 、住院号年龄身高体重住院天数职业文化程度分娩方式妊娠结局20256552716571.55无中学顺产足月20256532216074.05无小学助产足月20258302515868.06管理员大学顺产足月20225432316169.05无中学剖宫产足月2022466

12、2515962.011商业中学剖宫产足月20245352715768.02无小学顺产早产20258342015866.04无中学助产早产20194642415870.53无中学助产足月20257832915457.07干部中学剖宫产足月观察单位observations个体individuals变量variablesQuantitative data Quantitative data 计量资料计量资料Qualitative data Qualitative data 计数资料计数资料Units;elements三类资料间关系例:一组例:一组20 40岁成年人的血压岁成年人的血压以以12kPa1

13、2kPa为界分为正常与异常两组,统计每组例数为界分为正常与异常两组,统计每组例数 60,60平均存活天数?(一)中位数(median)是将每个变量值从小到大排列,位置居于中间的那个变量值。计算公式: n为奇数时 n为偶数时例2-39名中学生甲型肝炎的潜伏期分别为12,13,14,14,15,15,15,17,19天,求其中位数。频数表资料的中位数下限值下限值L上限值上限值Ui; fm中位数中位数M例例21频数表中位数的计算频数表中位数的计算Nf f中位数71+3x(130x50%59)/2671.69应用1、各种分布类型的资料2、特别适合大样本偏态分布资料或者一端或两端无确切数值的资料。 百分

14、位数示意图百分位数示意图(二)百分位数(二)百分位数(percentile)1直接计算法 设有n个原始数据从小到大排列,第X百分位数的计算公式为:当为带有小数位时:当为整数时:Trunc()取整函数取整函数 例对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求第5百分位数和第99百分位数。患者:住院天数:(1)n=120,为整数: (2) ,带有小数,故取整trunc(118.8)=118患患 者者:住院天数住院天数:2频数表法频数表法 公式:公式: 当当 时时,公公式式(2-9)即为中位数的计算公式即为中位数的计算公式 例2-9试分别求例21频数表的第25、

15、第75百分位数。P2565+3x(130x25%19)/1565.90P7574+3x(130x75%85)/1974.66众数(众数(mode)众数是一组观察值中出现频率最高的那个观察众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的值;若为分组资料,众数则是出现频率最高的那个组段的组中值。那个组段的组中值。适用于大样本;较粗糙。适用于大样本;较粗糙。例例2-7 有有16例高血压病人的发病年龄例高血压病人的发病年龄(岁岁)为:为:42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。,试求众数。众数(众数(mo

16、de)众数是一组观察值中出现频率最高的那个观察众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的值;若为分组资料,众数则是出现频率最高的那个组段的组中值。那个组段的组中值。适用于大样本;较粗糙。适用于大样本;较粗糙。例例2-7 有有16例高血压病人的发病年龄例高血压病人的发病年龄(岁岁)为:为:42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。,试求众数。正态分布时:正态分布时: 均数中位数众数正偏态分布时:正偏态分布时:均数中位数众数负偏态分布时:负偏态分布时:均数中位数众数 设设有有甲甲、乙乙、丙丙三三名

17、名医医生生,分分别别对对相相同同的的5份份血血样样进进行行红红细细胞胞计计数数(万万/mm3),甲甲得得出出了了560、540、500、460、440,乙乙得得出出了了520、510、500、490、480,丙丙得得出出了了510、505、500、495、490,见见下下图图2,三三名名医医生生的的计计数数结结果果得得到到的均数均为的均数均为500,5个数值之和均为个数值之和均为2500。第三节离散趋势的描述甲医生得出的5个观察值间的差异(离散程度)较大,而丙医生得出的5个观察值间的差异(离散程度)较小。常用统计指标:极差、四分位数间距、方差、标准差和变异系数。一、极差(Range)极差,用R

18、表示:即一组变量值最大值与最小值之差。对于书中例2-1数据,有简单,但仅利用了两端点值,稳定性差。二、四分位数间距(quartilerange) 四分位数间距,用四分位数间距,用Q表示:表示: Q=下四分位数:下四分位数: 上四分位数:上四分位数:例21数据P2565+3x(130x25%19)/1565.90P7574+3x(130x75%85)/1974.66三、方差与标准差 1.方差(variance)也称均方差(meansquaredeviation),反映一组数据的平均离散水平。总体方差样本方差离均差平方和SS2、公式:公式: 样本标准差用样本标准差用 表示表示 ,其度量单位与,其度

19、量单位与均数一致,所以均数一致,所以最常用最常用。公式:公式:离均差平方和SS 标准差的公式还可以写成标准差的公式还可以写成 :利用频数表计算标准差的公式为利用频数表计算标准差的公式为例2-11对例2-1的前10个数据:75,76,72,69,66,72,57,68,71,72,用直接法计算标准差。例2-12利用表2-2中的数据和频数表法计算标准差。Nf ffXfXfXfX2 2标准差的意义和用途标准差的意义和用途1.说明资料的离散趋势(或变异程度),标准差的值越大,说明变异程度越大,均数的代表性越差;.。2.标准差与原始数据的单位一致,在科技论文报告中,均数与标准差经常被同时用来描述资料的集

20、中趋势与离散趋势。2.用于计算变异系数3.用于计算标准误(见第四章)4.结合均值与正态分布的规律,估计参考值的范围(见第五节)。四、变异系数变异系数(coefficientofvariation,CV)常用于比较度量单位不同度量单位不同或均数相差均数相差悬殊悬殊的两组(或多组)资料的变异程度。 某地7岁男孩身高的均数为123.10cm,标准差为4.71;体重均数为22.59kg,标准差为2.26kg,比较其变异度? 第四节正态分布正态曲线(normal curve)的发现deMoivre(1667-1754),publishedin1733Laplace(1749-1827)Gauss(177

21、7-1855)正态分布:又称高斯分布(Gaussiandistribution)一、正态分布的概念和特征1正态分布曲线的数学表达式(概率密度函数,probabilitydensityfunction,pdf ) ,2正态分布的特征正态曲线下面积分布有一定的规律,总面积=1。累积面积可通过对概率密度函数f(X)积分求得(累积)分布函数:(累积)分布函数:图图2-7 正态曲线面积分布示意图正态曲线面积分布示意图 二、标准正态分布见见P404405,ZN(0,1)2例2-1的130名健康成年男子脉搏资料的均数、标准差分别为:71.32与5.80(次/分);问在正态分布假定下,脉搏在6575(次/分)

22、之间有多少人?正态分布标准正态分布一、基本概念第五节医学参考值范围的制定 1.意 义 : 医 学 参 考 值 ( referencevalue)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围作为判定正常和异常的参考标准,但不是“金标准”。2.单、双侧问题,常依据医学专业知识而定 双侧:如:血清总胆固醇、血液白细胞数无论过低或过高均属异常单侧上限:如:血清转氨酶、体内有毒物质过高异常(越低越好,P5) 3.有90%、95%、99%等医学参考值范围,最常用的是95%。计算医学参考

23、值范围的常用方法:1、正态分布法2、百分位数法二、正态分布法公式:公式:单侧单侧下限下限单侧单侧上限上限ZZZZ单侧单侧下限下限单侧单侧上限上限 例例2-16 测得某年某地名正常人的尿汞值测得某年某地名正常人的尿汞值如下表,试制定正常人尿汞值的如下表,试制定正常人尿汞值的95%参考参考值范围。值范围。 表表2-7 282名正常人尿汞值(名正常人尿汞值( )测量结果)测量结果单侧上限单侧上限(一)数值变量资料的统计描述(一)数值变量资料的统计描述常用的相对数常用的相对数率构成比比相对数应用的注意事项相对数应用的注意事项率的标准化率的标准化调查得知:n甲地区的小学生中流脑发病63例,n乙地区的小学

24、生中流脑发病35例。是否甲地区较为严重?甲地区共有小学生50051人,乙地区共有小学生14338人,n甲地区流脑发病率:n乙地区流脑发病率:1000=2.441000=1.26相对数两个作用 n第一,表示事物出现的频度。nn第二,便于比较。1 常用相对数常用相对数(1)1.1 率率(rate)、速率、速率 说明某现象发生的频率与强度:说明某现象发生的频率与强度:(1000,或10万/10万,等) 1 常用相对数常用相对数(2)1.2 构成比构成比(proportion) 说明某一事物内部各组成部分所占比例。说明某一事物内部各组成部分所占比例。1 常用相对数常用相对数(3)1.3 比比(rati

25、o) 说明说明A 是是B的多少倍,或百分之几。的多少倍,或百分之几。 相对数的例子相对数的例子(1)年度(1)发病人数(2)病死人数(3)病死率(4)构成比(5)199358481.378.81994571101.7511.01995714121.6813.21996748162.1417.61997942212.2323.019981095242.1926.4合计4654911.96100.0表19931998年某地损伤与中毒病死率(%)与构成比(%)血型血型 频数频数 (%) O205 40.43 A112 22.09 B150 29.59 AB 40 7.89合计合计 507100.00

26、相对数的例子相对数的例子(2)表某市表某市19801980年和年和19901990年年5 5种传染病发病情况种传染病发病情况疾病疾病1980年年1990年年病例数病例数 (%)病例数病例数 (%)痢疾痢疾360449.39203237.92肝炎肝炎120316.49114321.33流脑流脑6989.5654210.11麻疹麻疹89012.2076714.31腮腺炎腮腺炎90212.3687516.33合计合计7297100.005359100.00构成比构成比构成比构成比相对数的例子相对数的例子(3) 性别比,性比例性别比,性比例 男性人数男性人数:女性人数女性人数100出生时出生时:107

27、20岁岁:10050岁岁: 9860岁岁: 95 70岁岁: 8580岁岁: 66相对数的例子相对数的例子(4) 体质指数体质指数(BMI) 体重体重/身高身高2(kg/m2)低体重低体重 50), 也近似正态分布。 不同自由度下t分布图 例4.2 现测得某地25名1岁婴儿血红蛋白的平均值为123.7(g/L),求其95%可信区间。本例n=25, S=11.9g/L, 按式(4.2)算得样本均数的标准误为: (g/L)=n1=251=24, 取双尾0.05,查附表2,t值表得 。按式(4.4)得:即 (118.79, 128.61)g/L 故该地1岁婴儿血红蛋白平均值95%的可信区间为(118.79, 128.61)g/L。例4.4 某地抽得正常成人200名,测得其血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L,试估计该地正常成人血清胆固醇均数的95%可信区间。 本例n=20050,故采用正态近似的方法按式(4.7)计算可信区间。今 =3.64, S=1.20, 取双尾0.05得 。即(3.47, 3.81)mmolL 故该地正常成人血清胆固醇均数的95%可信区间为(3.47, 3.81)mmolL。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号