《12.流行病与卫生统计学基本知识.ppt》由会员分享,可在线阅读,更多相关《12.流行病与卫生统计学基本知识.ppt(155页珍藏版)》请在金锄头文库上搜索。
1、流行病学和医学统计学基本知识健康管理师培训冯嘉丽冯嘉丽南方医科大学培训中心健康管理对个体和群体的健康进行全面监测、分析、评估,提供健康咨询和指导以及对健康危险因素进行干预的全过程。特 点管理学健康维护疾病预防临床治疗康复基本步骤健康信息、收集资料健康风险评估一般健康状况分析评估、疾病风险预测健康干预、咨询、指导干预效果评估一、流行病学一、流行病学二、统计学基础二、统计学基础冯嘉丽制作研究对象传染病慢性病及所有疾病人群健康状况、公共卫生问题定 义研究人群中疾病与健康状况的研究人群中疾病与健康状况的分布分布及其影响因素及其影响因素,并研究防制疾病及,并研究防制疾病及促进健康的促进健康的策略和措施策
2、略和措施的科学。的科学。基本含义a.从群体的角度研究疾病和健康状况b.从研究各种疾病与健康的分布的现象入手,探讨分布的规律,研究影响分布的因素c.运用流行病学的理论与方法,研究控制疾病流行,促进群体健康的策略与措施研研究究方方法法观观察察法法实实验验法法数数理理法法描述流行病学描述流行病学分析流行病学分析流行病学横断面调查横断面调查监测监测生态学研究生态学研究病例对照研究病例对照研究队列研究队列研究实验流行病学实验流行病学临床试验临床试验现场试验现场试验社区干预项目社区干预项目理论流行病学理论流行病学产生假设产生假设检验假设检验假设验证假设验证假设三、三、常用指标一、相对数指标1.比比(rat
3、io) :两个变量的数值之商:两个变量的数值之商 特点:特点:表示分子和分母间的数量关系;表示分子和分母间的数量关系;不管分子和分母所来自的总体如何;不管分子和分母所来自的总体如何; 分子和分母是两个彼此分离的互相不重叠或分子和分母是两个彼此分离的互相不重叠或 包含的量;包含的量;分子和分母本身可以是绝对数、比例、比。分子和分母本身可以是绝对数、比例、比。 2比例比例(proportion):表示同一事物局部与:表示同一事物局部与总体之间数量上的比值。总体之间数量上的比值。构成比例:是自身构成的部分与全体的比构成比例:是自身构成的部分与全体的比值。代表随机抽样,抽取到某种成分的概值。代表随机抽
4、样,抽取到某种成分的概率。率。发生(频率)比例:在其内发生某变化的发生(频率)比例:在其内发生某变化的部分与全体的比值。反映在一定时间内,部分与全体的比值。反映在一定时间内,发生某种变化者占全体的比例。发生某种变化者占全体的比例。无量纲,取值范围在无量纲,取值范围在0,1。构成比例构成比例常用来表示疾病或死亡的顺位、位次或所占比重常用来表示疾病或死亡的顺位、位次或所占比重有有100台电视机,连续开放台电视机,连续开放1000小时,有小时,有8台坏了,这台坏了,这100台电视机台电视机1000小时的损坏比小时的损坏比例等于例等于8%。发生频率比例发生频率比例3率(率(rate):): 在某一确定
5、人群中某事件发生在某一确定人群中某事件发生的频率。的频率。 有量纲,可以取任何值,不一定在有量纲,可以取任何值,不一定在0,1当观察期间为一个单位时段,变量的变化远远当观察期间为一个单位时段,变量的变化远远小于变量的值时,率与发生比例在数值上近似小于变量的值时,率与发生比例在数值上近似相等。相等。发病指标v发病率发病率(incidence rateincidence rate)v罹患率罹患率(attack rateattack rate)v患病率患病率(prevalence rateprevalence rate)v感染率感染率(infection rate)infection rate)v病
6、残率病残率 (disability rate)(disability rate)(一)发病率(一)发病率表示在一定期间内,一定人群中某病表示在一定期间内,一定人群中某病新病例新病例出现的频率。出现的频率。K=100%,1000/千,或10000/万应应 用用 v用作描述疾病分布用作描述疾病分布v反映疾病发生比率反映疾病发生比率v它的变化意味着病因因素的变化它的变化意味着病因因素的变化v可按病种、年龄、性别、职业等特征可按病种、年龄、性别、职业等特征 分别统计计算获得发病专率分别统计计算获得发病专率注意事项分子:一定期间内的分子:一定期间内的新发病新发病人数。人数。分母:指分母:指可能可能会发生
7、该病的人群。会发生该病的人群。发病率一般根据病例报告来计算,若病例发病率一般根据病例报告来计算,若病例报告制度不健全,病例报告漏报情况严重报告制度不健全,病例报告漏报情况严重时或诊断的标准不一致时,其准确性将受时或诊断的标准不一致时,其准确性将受到影响。到影响。比较不同地区的发病资料时,应考虑年龄比较不同地区的发病资料时,应考虑年龄或性别结构不同,注意可比性,常用发病或性别结构不同,注意可比性,常用发病的标化率进行比较。的标化率进行比较。(二)患病率(二)患病率 某某特特定定时时间间内内总总人人口口中中某某病病新新旧旧病病例例所占的比例所占的比例。 按观察时间按观察时间:v 期间患病率期间患病
8、率v 时点患病率时点患病率K=100%,1000/千,或10000/万 若未加任何说明,一般是指时点患病率若未加任何说明,一般是指时点患病率 当当某某地地某某病病的的发发病病率率和和该该病病的的病病程程在在相相当当长长时时间间内内保保持持稳稳定定时时,患患病病率率、发病率和病程三者的关系是:发病率和病程三者的关系是: P患病率 I发病率 D病程 v表示病程较长的慢性病的发生或流行表示病程较长的慢性病的发生或流行v为为医医疗疗设设施施规规划划,估估计计医医院院床床位位周周转转,卫卫生生设设施施及及人人力力的的需需要要量量,医医疗疗质质量量的的评估和医疗费用的投入等提供科学依据。评估和医疗费用的投
9、入等提供科学依据。注意:研究发病的病因时,应选用发病注意:研究发病的病因时,应选用发病率而不选用患病率。率而不选用患病率。应应 用用死亡指标v 死亡率死亡率 (mortality ratemortality rate)v 病死率病死率 (fatality ratefatality rate)v 生存率生存率 (survival rate)(survival rate)v 累积死亡率累积死亡率 (cumulative mortality rate)(cumulative mortality rate) 表示在一定期间内,在一定人群中,表示在一定期间内,在一定人群中,死于某病(或死于所有原因)的频
10、率。死于某病(或死于所有原因)的频率。 测量人群死亡危险最常用的指标。测量人群死亡危险最常用的指标。K=100%,1000/千,或10000/万死亡率死亡率 用于衡量某一时期,一个地区人群死亡危用于衡量某一时期,一个地区人群死亡危险性大小的指标。险性大小的指标。注意事项 分母中同年平均人口数可用斜面两种办法代替:该年7月1日人口数年初人口数加年终人口数之和除以2注意事项粗死亡率:死于所有原因的死亡率是一种未经过调整的率。比较不同地区或年代的疾病死亡率时,不宜直接用粗死亡率来比较。各地区人口的年龄或性别构成可能不同,使得不同地区或人群间的死亡率可能不具有可比性,常需将死亡率进行标化后才可以比较。
11、 表示一定时期内(通常为年),患某表示一定时期内(通常为年),患某病的全部病人中因该病死亡者的比例。病的全部病人中因该病死亡者的比例。K=100%,1000/千,或10000/万病死率病死率应应 用用v表示某确诊疾病的死亡概率表示某确诊疾病的死亡概率v可反映该疾病的严重程度可反映该疾病的严重程度v反映医疗水平和诊断能力反映医疗水平和诊断能力v通常多用于急性传染病,较少用于慢性病通常多用于急性传染病,较少用于慢性病 生存率生存率 指指接接受受某某种种治治疗疗的的病病人人或或患患某某病病的的人人中中,经经若若干干年年随随访访(通通常常为为1、3、5年年)后,尚存活的病人数所占的比例。后,尚存活的病
12、人数所占的比例。应 用v研究疾病对生命的危害程度研究疾病对生命的危害程度v评价某些病程较长疾病的远期疗效评价某些病程较长疾病的远期疗效v在某些慢性病、传染病,如结核病、癌在某些慢性病、传染病,如结核病、癌 症、冠心病等的研究中常应用症、冠心病等的研究中常应用累积死亡率累积死亡率在一定时间内死亡人数占某确定人群中的比例。在一定时间内死亡人数占某确定人群中的比例。累积死亡率是由各年龄组死亡专率构成,不受人口构累积死亡率是由各年龄组死亡专率构成,不受人口构成的影响,两个累积死亡率可直接比较。成的影响,两个累积死亡率可直接比较。注意事项计算某病的发病率或死亡率时,从理论上讲应以所有可能患某种疾病的人数
13、作为分母才能正确地反映发病或死亡的强度。但在实际计算时有一定困难。分子应有确切的定义或标准并应当坚持始终计算疾病的频率时,通常是以年为时间单位,但也可根据研究者的需要另外规定时间单位关联强度的流行病学指标关联强度的流行病学指标v相对危险度相对危险度v特异危险度特异危险度v人群特异危险度人群特异危险度v人群特异危险度百分比人群特异危险度百分比相对危险度(危险比相对危险度(危险比/ /率比)率比)RRRR 意义:意义:暴露组发病或死亡的危险是非暴露组的多少倍暴露组发病或死亡的危险是非暴露组的多少倍RR值越大,暴露的效应越大,暴露与结局关值越大,暴露的效应越大,暴露与结局关联强度越大联强度越大 Ie
14、:暴露暴露组率组率Io:非暴露组率非暴露组率概念:暴露组发病(或死亡)率与非暴露概念:暴露组发病(或死亡)率与非暴露组发病(或死亡)率的比值。组发病(或死亡)率的比值。意 义RR=1,表示暴露与疾病危险无关联RR1,说明疾病的危险度增加,正相关,暴露越多,疾病越多,可能是致病因素。RR1,说明疾病的危险度减少,负相关,暴露越多,疾病越少,具有保护意义。特异危险度特异危险度(归因危险度(归因危险度/率差)率差) ARAR 意义意义暴露与非暴露人群比较,所增加的疾病发生数量,表示单独由某因素所暴露与非暴露人群比较,所增加的疾病发生数量,表示单独由某因素所致的发病(或死亡)危险致的发病(或死亡)危险
15、 AR值越大,暴露因素消除后所减少的疾病数量越大值越大,暴露因素消除后所减少的疾病数量越大 或概念:暴露组发病(或死亡)率与非暴露组发病(或死亡)率之差。 意义:吸烟对于每个受害者,患肺癌的危险性比患心血管病意义:吸烟对于每个受害者,患肺癌的危险性比患心血管病的危险大得多;对于整个人群,吸烟引起心血管的死亡率却的危险大得多;对于整个人群,吸烟引起心血管的死亡率却比肺癌的高。比肺癌的高。RR 吸烟对肺癌的病因学意义较大吸烟对肺癌的病因学意义较大AR 戒烟对心血管疾病的预防作用较大,戒烟对心血管疾病的预防作用较大, 即公共卫生意义较大即公共卫生意义较大 RR与与AR的区别的区别疾病疾病吸烟者吸烟者
16、非吸烟者非吸烟者RRAR肺癌肺癌48.334.6910.843.84心血管疾病心血管疾病294.67169.451.7125.13(1/10万人年万人年)人群归因危险度人群归因危险度 PAR 意义意义暴露人群与一般人群比较,所增加的疾病发生率的暴露人群与一般人群比较,所增加的疾病发生率的大小大小PAR值越大,暴露因素消除后所减少的疾病数量越值越大,暴露因素消除后所减少的疾病数量越大大 PAR=ItI0 It:全人群发病率:全人群发病率Io:非暴露组发病率非暴露组发病率概念:指总人群发病率中归因于暴露的部分。人群归因危险度百分比人群归因危险度百分比PAR% 意义意义 PAR占总人群全部发病(或死
17、亡)的百分比占总人群全部发病(或死亡)的百分比或或Pe:总人群的暴露比例总人群的暴露比例概念:人群中因暴露于某因素所致某病占人群中某病发病的百分比。流行病学研究方法分类按按设设计计类类型型分分类类描述流行病学描述流行病学分析流行病学分析流行病学横断面调查横断面调查疾病监测疾病监测生态学研究生态学研究筛检筛检病例对照研究病例对照研究队列研究队列研究实验流行病学实验流行病学随机化临床实验随机化临床实验现场试验现场试验社区干预实验社区干预实验理论流行病学理论流行病学流行病学模型流行病学模型描述流行病学收集资料(现有资料、专门目的调查所得资料)计算相应统计指标和疾病率比较不同时间、地区、人群中的分布情
18、况探索病因、评价防治措施及其效果研究特定时点或期间内对特定人群某种研究特定时点或期间内对特定人群某种疾病或健康状况进行的调查研究。疾病或健康状况进行的调查研究。调查人群:社区居民、企业员工、社区调查人群:社区居民、企业员工、社区卫生服务中心的患者卫生服务中心的患者又称横断面研究、患病率研究又称横断面研究、患病率研究第一节、现况研究第一节、现况研究现况调查描述疾病的患病率或健康状况的分布描述疾病的患病率或健康状况的分布提供疾病致病因素的线索提供疾病致病因素的线索确定高危人群确定高危人群对疾病监测、预防接种效果及其他资料对疾病监测、预防接种效果及其他资料的质量评价的质量评价第二节现况调查第二节现况
19、调查目 的方法及种类面访信访电话访问自填式问卷调查:个人基本情况、个人与家族病史、行为及生活方式体格检查和实验室检查敏感问题的调查方法常用抽样调查,结果有较强推广意义常用抽样调查,结果有较强推广意义有来自同一群体的自然形成的同期对照有来自同一群体的自然形成的同期对照组,结果具有可比性组,结果具有可比性可同时观察多种因素可同时观察多种因素第二节现况调查第二节现况调查优优 点点难以确定先因后果的时相关系难以确定先因后果的时相关系不能获得发病率资料不能获得发病率资料研究对象可能处于临床前期而被误定为研究对象可能处于临床前期而被误定为正常人正常人第二节现况调查第二节现况调查缺缺 点点研究实例P234练
20、习某社区卫生服务中心想了解社区居民慢性病患病及相关因素的现状,为制定社区慢性病管理及慢性病健康教育措施提供依据。方式:抽样调查步骤:确定研究对象,估计样本量调查方法:问卷包括:人口学特征、慢性病患病的情况、慢性病相关危险因素情况以及慢性病相关知识分析指标:患病率(病种、性别、年龄组);暴露率(各危险因素、性别、年龄组、暴露率与患病的关系);知晓率(相关知识、性别、年龄组)分析流行病学描述性研究分析疾病和健康状态与可能的致病因素之间的关系筛选致病因素形成和检验病因假说队列研究对一定范围内未患有的人群按是否暴露于某因素(或具备某种特征)进行分组,随访一定的时间,比较两组的发病率或死亡率,以研究某因
21、素或某特征是否与某疾病发生或死亡存在着关系。 目标人群目标人群 未患某研究未患某研究 疾病疾病代表代表性样性样本本 NoYes No暴露组暴露组非暴露组非暴露组时间顺序时间顺序 是否暴露某个危险因子是否暴露某个危险因子结局(疾病)结局(疾病)队列研究的结构模式图队列研究的结构模式图Yes时间顺序时间顺序 过去过去 现在现在 将来将来 历史性队列双向性队列前瞻性队列回顾性收集已有的历史资料回顾性收集已有的历史资料回顾性收集已有的历史资料回顾性收集已有的历史资料继续前瞻性收集资料继续前瞻性收集资料前瞻性收集资料前瞻性收集资料队列研究类型示意图队列研究类型示意图队列研究类型示意图队列研究类型示意图v
22、观察法观察法 v设立对照设立对照 v由因到果,符合时间顺序由因到果,符合时间顺序 v确证暴露和结局因果关系确证暴露和结局因果关系v追踪两组间的发病或死亡率差异追踪两组间的发病或死亡率差异特 点队列研究优点:优点:从原因(病因)到结果(疾病)从原因(病因)到结果(疾病)可直接进行因果推断可直接进行因果推断可进行一因多果研究可进行一因多果研究缺点:缺点:所需人数较多,时间较长,易产生失访偏所需人数较多,时间较长,易产生失访偏倚倚研究实例P236探讨超重/肥胖与糖尿病的关系确定暴露因素超重:24体重指数28肥胖:体重指数28结局随访观察中将出现的预期结果事件,即研究者希望追踪观察的时间糖尿病确定研究
23、现场一个或多个社区代表性:研究人群能够反映目标人群的情况可行性:人力、物力的耗费,研究现场的工作基础,研究对象的依从性确定研究人群超重组、肥胖组对照组(体重正常组)要求:三组人群 ?糖尿病除了体重外,其他各种影响因素或人群特征都应尽可能地相同,即具有可比性估算样本量资料收集与随访:随访的方法、内容、时间间隔、观察终点及随访者基线资料和随访资料:问卷调查、体格检查和实验室检查随访周期:每年1次分析指标超重组、肥胖组和对照组的可比性及资料的可靠性分析计算两组的糖尿病的发病率、病死率和年发病率等指标计算超重或肥胖与糖尿病的关联强度评估研究过程中可能存在的各种偏倚失访偏倚信息偏倚混杂偏倚病例对照研究在
24、疾病发生之后,以现在患有该病的病人在疾病发生之后,以现在患有该病的病人为一组(病例组),以未有该病但其它条为一组(病例组),以未有该病但其它条件如性别、年龄与病人相同的人为另一组件如性别、年龄与病人相同的人为另一组(对照组),通过询问,化验比较或复查(对照组),通过询问,化验比较或复查病史,按其既往各种可疑致病因素或验证病史,按其既往各种可疑致病因素或验证病因假说。病因假说。图图1 1 病例对照研究原理示意图病例对照研究原理示意图调查方向:收集回顾性资料调查方向:收集回顾性资料比较比较人数人数暴露暴露疾病疾病病例病例对照对照+acbd特特 点点v 观察性研究观察性研究v 设立对照设立对照v 由
25、果推因由果推因v 不能证实暴露与疾病的因果关系不能证实暴露与疾病的因果关系v 只能推测判断暴露与疾病是否有关联只能推测判断暴露与疾病是否有关联病例对照研究优点:优点:回顾性,需要人力、物力较小回顾性,需要人力、物力较小所需样本量不大,资料易于收集所需样本量不大,资料易于收集缺点:缺点:易于产生偏倚易于产生偏倚研究实例P237 将来自同一总体的研究人群随机分为实验将来自同一总体的研究人群随机分为实验组和对照组,研究者对实验组人群施加某组和对照组,研究者对实验组人群施加某种干预措施后,随访并比较两组人群的发种干预措施后,随访并比较两组人群的发病(死亡)情况或健康状况有无差别及差病(死亡)情况或健康
26、状况有无差别及差别大小,从而判断干预措施效果的一种前别大小,从而判断干预措施效果的一种前瞻性、实验性研究方法。瞻性、实验性研究方法。实验性研究实验性研究实验流行病学特点:特点:前瞻性前瞻性必须施加一种或多种干预处理必须施加一种或多种干预处理研究对象来自同一个总体的抽样人群研究对象来自同一个总体的抽样人群分组按照随机分配原则分组按照随机分配原则必须有平行的实验组和对照组,两者具有必须有平行的实验组和对照组,两者具有可比性可比性分 类按研究场所划分按研究场所划分现场试验现场试验临床试验临床试验按设计类型划分按设计类型划分个体试验个体试验社区试验社区试验 临床试验研究临床试验研究的结构示意图的结构示
27、意图临床试验临床试验(clinical trial) 现场试验研究现场试验研究的结构示意图的结构示意图个体试验基本单位:个人管理对象:未患病人群、高危人群、患病人群某社区卫生服务中心想了解非药物的生活方式干预在糖尿病防治中的效果确定研究对象糖尿病患者估计样本量随机分组干预组:综合干预组(常规治疗+健康教育+个体针对性指导)发放糖尿病健康知识材料、糖尿病专题讲座、组织患者交流讨论饮食、运动、用药指导、自我监测指导对照组:常规治疗组确定干预时间随访收集资料资料分析:两组基线资料的均衡性分析干预的有效性分析:两组各自干预前后的对比分析干预组的效果?对照组的效果两组变化情况的对比分析社区干预试验对象:
28、社区尽可能相似的两个社区某学校的班级或某个年龄组的人群基线调查随机选择干预组和对照组干预结束后对两个社区进行随访调查干预效果:比较两个社区的疾病和危险因素的暴露水平的差异诊断试验筛检试验筛检试验诊断试验诊断试验对象不同健康人或无症状的病人病人目的不同把病人及可疑病人与无病者区分开来病人与可疑有病但实际无病的人区分开来要求不同快速、简便、高灵敏度科学性、准确性费用不同简单、廉价一般花费较贵处理不同阳性者须进一步作诊断试验以便确诊结果阳性者要随之以治疗 筛检试验与诊断试验的区别筛检试验与诊断试验的区别指 标客观指标:如体温计测定的体温主观指标:如疼痛半客观指标:根据诊断者的主观感知判断 (如肿物的
29、硬度、大小)受试者工作特性曲线受试者工作特性曲线(receiver operator (receiver operator characteristic curve, ROC)characteristic curve, ROC) 是用真阳性率和假阳性率作图是用真阳性率和假阳性率作图得出的曲线,它可表示灵敏度和特得出的曲线,它可表示灵敏度和特异度之间的关系异度之间的关系糖尿病血糖试验的糖尿病血糖试验的ROC曲线曲线(李立明李立明2002) ROC曲线常用来决定最佳临界点,通常曲线常用来决定最佳临界点,通常最接近左上角那一点,可定为最佳临界点最接近左上角那一点,可定为最佳临界点 ROC曲线也可用来
30、比较两种和两种以上曲线也可用来比较两种和两种以上诊断试验的诊断价值,从而帮助临床医师作诊断试验的诊断价值,从而帮助临床医师作出最佳选择。出最佳选择。评价指标评价指标(一)真实性(validity) 测量值与实际值相符合的程度,亦称效度。包括灵敏度与假阴性率灵敏度与假阴性率特异度与假阳性率特异度与假阳性率似然比似然比正确诊断指数正确诊断指数( (二)可靠性二)可靠性(reliability)(reliability) 又称信度,指某一筛检方法在相同又称信度,指某一筛检方法在相同条件下重复测量同一受试者时,所获结条件下重复测量同一受试者时,所获结果的一致性。果的一致性。 变异系数 符合率 诊断试验
31、的一致性分析 (三)收益(三)收益阳性预测值(阳性预测值(positive predictive valuepositive predictive value):是指试验阳性者患目标疾病的可能性是指试验阳性者患目标疾病的可能性阴性预测值(阴性预测值(negative predictive valuenegative predictive value): 是指试验阴性者不患目标疾病的可能性是指试验阴性者不患目标疾病的可能性 提高诊断质量的方法:提高诊断质量的方法:选择患病率高的人群选择患病率高的人群采用联合试采用联合试 串联:全部串联:全部筛检试验结果均为阳性者筛检试验结果均为阳性者才定为阳性。
32、该法可以提高特异度。才定为阳性。该法可以提高特异度。 并联:只要有任何一项筛检试验结果并联:只要有任何一项筛检试验结果为阳性就可定为阳性。该法可以提高灵为阳性就可定为阳性。该法可以提高灵敏度。敏度。定 义 运用数理统计的运用数理统计的基本原理基本原理和和方法方法对预防对预防医学和公共卫生领域中的科学研究进行医学和公共卫生领域中的科学研究进行设设计计,以及研究资料的,以及研究资料的收集收集、整理整理和和分析分析的的一门应用科学。一门应用科学。统计设计调查设计实验设计A、实验设计:研究对象接受了某种干预(或处理)后获得的数据例:某研究者为了解螺旋藻的保健功能对患有糖尿病的小鼠作降血糖实验,按初始血
33、糖浓度将20只小鼠随机分为两组,一组为空白对照,另一组给螺旋藻,然后观察血糖是否有变化。B、调查设计:为了对某个特定人群的现状作调查而进行的研究设计例:2005年某地区小学生营养膳食调查统计分析统计分析统计描述统计描述统计指标统计指标统计图表统计图表统计分布统计分布平均数指标平均数指标变异指标变异指标相对数指标相对数指标统计表统计表统计图统计图正态分布正态分布t t 分布分布F F 分布分布2 2分布分布统计分析统计分析统计推断统计推断参数估计参数估计点估计点估计区间估计区间估计 假设检验:比较它们的样本均数或样本率假设检验:比较它们的样本均数或样本率2 2统计资料的类型统计资料的类型 常指单
34、个反应变量的数据类型。常指单个反应变量的数据类型。 计量资料计量资料 计数资料计数资料 等级资料等级资料 计量、计数和等级资料间可相互转化。计量、计数和等级资料间可相互转化。why 计数资料是先将观察单位按某种属性或类别分成若干组,再清点各组观察单位个数所得到的资料。 如:检验结果-用阳性或阴性反应表示,又如 型,按A、B、AB、O四型分型。 计数资料每个观察单位之间没有量的差别,但各组之间具有质的不同,不同性质的观察单位不能归入一组。对这类资料通常是先计算百分比或率等相对数,需要时做百分比或率之间的比较,也可做两事物之间相关的相关分析。 计量资料是用仪器、工具或其它定量方法对每个观察单位的某
35、项标志进行测量,并把测量结果用数值大小表示出来的资料,一般带有度量衡或其它单位。如检查一批应征青年体重,需要磅秤测量,通常以公斤为单位,测得许多大小不一的体重值。其它如身长(cm)、血压mmHg)、脉搏(次分)、红细胞(万/mm3)转氨酶(单位)等,都属于计量资料。 每个观察单位的观测值之间有量的区别,但同一批观察单位必须是同质的。对这类资料通常先计算平均数与标准差等指标,需要时做各均数之间的比较或各变量之间的分析。 等级资料或半定量资料还有一些资料,也是将观察单位按某种属性或某个标志分组,然后清点各组观察单位个数得来的,但所分各组之间具有等级顺序。这些资料既具有计数资料的特点,又兼有半定量的
36、性质,称为等级资料或半定量资料。 例如对一批急性病毒性肝炎患者作麝香草酚絮状试验,将试验结果按-、+、+、+、+分组,显然各组之间既有等级顺序,又有程序与量的差别。又如某病住院病人的治疗结果,按治愈、好转、无效、死亡分组,同样各组之间具有顺序与程度之别。分析等级资料常用的统计指标有比和率,常用的统计方法有秩和检验、参照单位分析等。统计工作的步骤统计工作的步骤 设计设计(design) 收集资料收集资料(collection of data) 整理资料整理资料(Sorting data) 分析资料分析资料(analysis of data)1. 设计设计(design) 资料收集、整理、分析全过
37、程的设想和安排。资料收集、整理、分析全过程的设想和安排。(制定周密的研究计划制定周密的研究计划) 选题:目的、意义、假说;选题:目的、意义、假说; 确定观察对象和观察单位:普查、抽样调查;确定观察对象和观察单位:普查、抽样调查; 收集资料指标和方法:报表、专项调查;收集资料指标和方法:报表、专项调查; 分析指标和方法;分析指标和方法; 质控:误差、偏倚控制;质控:误差、偏倚控制; 经费预算;经费预算; 组织;组织; 预期成果;预期成果;2. 收集资料收集资料 ( collection of data ) 统计报表;统计报表; 资料来源资料来源 经常性工作记录;经常性工作记录; 专题调查或实验。
38、专题调查或实验。 完整、准确和及时完整、准确和及时 资料要求资料要求 有足够数量,即有足够数量,即 n 够大够大 代表性及可比性代表性及可比性3. 整理资料整理资料 ( Sorting data ) 资料核查、录入、分组、汇总。资料核查、录入、分组、汇总。4. 分析资料分析资料 ( analysis of data ) 计算相关指标,阐明事物的内在联计算相关指标,阐明事物的内在联系和规律。系和规律。 统计描述统计描述 ( descriptive statistics ) 统计推断统计推断 ( inferential statistics )医学统计学的重要概念总体总体 (population)
39、(population) 根据研究目的确定的同质根据研究目的确定的同质观察单位观察单位的全体。的全体。 (同质的所有观察单位某种变量值的集合)(同质的所有观察单位某种变量值的集合) 例:调查某地2004年20岁健康男大学生的身高 了解某市某年三级甲等医院的病床数 样本与随机抽样样本与随机抽样(1)(1)样本样本 (sample)(sample) 从总体中随机抽取有代表性的一部分个体,从总体中随机抽取有代表性的一部分个体,其测量值(观察值)的集合。其测量值(观察值)的集合。(2)(2)随机抽样(随机抽样(random samplingrandom sampling) 总体中每个体都有均等机会被抽
40、取,抽到总体中每个体都有均等机会被抽取,抽到谁具有一定的偶然性。谁具有一定的偶然性。包括:单纯随机抽样、整群抽样、系统抽样、分包括:单纯随机抽样、整群抽样、系统抽样、分层抽样等层抽样等例:要了解某地2004年所有20岁健康男大学生的 身高。我们从总体中抽取一部分观察单位加以实际观察或调查研究,根据对这一部分观察单位的观察研究结果,再去推论和估计总体情况。观察样本的目的在于推论总体,这就是样本与总体的辩证关系。为了使样本能够正确反映总体情况,对总体要有明确的规定;总体内所有观察单位必须是同质的;在抽取样本的过程中,必须遵守随机化原则;样本的观察单位还要有足够的数量。变量与变量值变量与变量值 (1
41、)(1)变量(变量(variable )variable ):观察单位(或个体)观察单位(或个体) 的某种属性或标志。的某种属性或标志。(2)(2)变量值变量值(value of variable):(value of variable):对变量进对变量进 行测量或观察的值。即测量值或观察值。行测量或观察的值。即测量值或观察值。例1:调查某市某年三级甲等医院的病床数例2:调查某地成年人的高血压患病情况(年龄、 性别、职业、文化程度、体重、血压等)同质与变异同质与变异(1)(1)同质同质(homogeneity) (homogeneity) :研究对象具有相同的研究对象具有相同的背景、条件、属性
42、。背景、条件、属性。 (2)(2)变异变异(variation)(variation):同一性质的事物,其个体观察值同一性质的事物,其个体观察值(变量值)之间的差异。(变量值)之间的差异。 生物因素及其他综合因素、偶然性生物因素及其他综合因素、偶然性个体差异个体差异同同质单位的各个体指标的差异质单位的各个体指标的差异例1:调查某地2004年所有20岁健康男大学生的 身高例2:研究某种新药治疗胃溃疡的效果 参数与统计量参数与统计量(1) (1) 参数参数(parameter)(parameter):总体指标。总体指标。 凡是来自总体的指标均称之。凡是来自总体的指标均称之。(2) (2) 统计量:
43、统计量:样本指标。样本指标。 从总体中随机抽取的样本所算得的指标值。从总体中随机抽取的样本所算得的指标值。例:某地2002年全部正常成年男子的平均红细胞数,从该总体中随机抽取的144名正常成年男子的平均红细胞数误差误差(error)(error):测量值与真值,样本指测量值与真值,样本指标与总体指标之差。标与总体指标之差。系统误差系统误差随机误差随机误差随机测量误差随机测量误差抽样误差抽样误差(1) (1) 系统误差系统误差(systematic error)(systematic error) 由于测量系统失准所导致的误差。由于测量系统失准所导致的误差。a.a.操作方法不正确或对调查问卷理解
44、有误操作方法不正确或对调查问卷理解有误b.b.医生掌握疗效标准偏高或偏低医生掌握疗效标准偏高或偏低c.c.周围环境的改变:室温、作用时间等周围环境的改变:室温、作用时间等d.d.仪器不准或试剂不合格仪器不准或试剂不合格例:测血压特点:特点:有倾向性。有倾向性。 通过校正、培训等可避免,但不通过校正、培训等可避免,但不 能用统计方法解决。能用统计方法解决。(2) (2) 随机测量误差随机测量误差 (random error)(random error) 偶然机遇所致,无方向性。偶然机遇所致,无方向性。 无法避免,只要将误差控制在允无法避免,只要将误差控制在允许范围内,数据仍可用。许范围内,数据仍
45、可用。(3) (3) 抽样误差抽样误差(sampling error)(sampling error) 在抽样研究中,即使消除了系在抽样研究中,即使消除了系统误差,控制了随机测量误差,样统误差,控制了随机测量误差,样本统计指标和总体参数间仍会存在本统计指标和总体参数间仍会存在差别。差别。 由抽样引起,是个体变异造成,由抽样引起,是个体变异造成,无倾向性。无倾向性。 无法避免,但有规律可循,用无法避免,但有规律可循,用统计方法估计或增大样本使其减少。统计方法估计或增大样本使其减少。例:假定已知某年某地所有13岁女大学生身高的总体均数是155.4cm,总体标准差是5.3cm。在此有限总体中多次重复
46、抽样,每次均抽取100例组成一个样本,可算出每一个样本的平均身高。得到的样本均数可能是153.6、153.1、154.9,158.7等。概率与频率概率与频率(1) (1) 概率概率(probability)(probability) 某随机事件发生的可能性大小的数值。某随机事件发生的可能性大小的数值。随机事件的概率在随机事件的概率在0 0与与1 1之间,即之间,即P1P1。P P越接近越接近1 1,表明事件发生可能性越大,表明事件发生可能性越大,P P越接近越接近0 0,表明事件发生可能性越小。,表明事件发生可能性越小。P 0.05P 0.05或或P 0.01P 0.01称为小概率事件,称为小
47、概率事件,表示在一次实验或观察中某事件发生的可能表示在一次实验或观察中某事件发生的可能性很小,可以视为很可能不发生。性很小,可以视为很可能不发生。(2) (2) 频率频率(frequency)(frequency) 一次试验结果计算得到的样本率。一次试验结果计算得到的样本率。例:某药治疗200个病人,其治愈率为80%; 经过多次试验和许多人的治疗,其治愈率稳 定在80%。统计描述统计描述连续型定量变量的频数分布表连续型定量变量的频数分布表 1. 求全距求全距 ( 极差,极差,range) R = 最大值最小值最大值最小值 2. 定组数、组距、组段定组数、组距、组段 i = R / k k为组段
48、数为组段数(815组组) 3. 列表归纳列表归纳 第一组下限含最小值第一组下限含最小值(略小于最小值略小于最小值), 末组上限含最大值末组上限含最大值(略大于最大值略大于最大值), 组中值组中值=(相邻两组下限之和)(相邻两组下限之和)/ 2, 列出各组频数,列出各组频数, 计算各组频率、累积频数、累积频率。计算各组频率、累积频数、累积频率。 举例举例 1. 计量资料的频数分布表计量资料的频数分布表 例例1 某市某市1995年对年对110名名7岁男孩测岁男孩测量身高量身高(cm)资料。资料。 R = 134.5 - 110.2 = 24.3(cm) i = 24.3 / 10 2(cm) 注意
49、:分组可等距或不等距。注意:分组可等距或不等距。 表表1 110名名7岁男孩身高频数岁男孩身高频数组段组段 组中值组中值 频数频数 频率频率 累积频数累积频数 累积频率累积频率 X f f % f ( f ) %110 111 1 0.91 1 0.91112 113 3 2.73 4 3.64114 115 9 8.18 13 11.82116 117 9 8.18 22 20.00118 119 15 13.64 37 33.64120 121 18 16.36 55 50.00122 123 21 19.09 76 69.09124 125 14 12.73 90 81.82126 12
50、7 10 9.09 100 90.91128 129 4 3.64 104 94.55130 131 3 2.73 107 97.27132 133 2 1.82 109 99.09134-136 135 1 0.91 110 100.00合计合计 110 100.00 直方图直方图 (histogram) (本图为近似对称分布本图为近似对称分布) 111 113 115 117 119 121 123 125 127 129 131 133 135 身高身高(cm) 图图1 某市某市110名名7岁男骇身高的频数分布岁男骇身高的频数分布05101520人人数数定量变量的特征数定量变量的特征数
51、集中趋势(集中趋势(central tendency) 离散趋势(离散趋势(tendency of dispersion)(一一) 描述集中趋势的统计指标描述集中趋势的统计指标 算术均数算术均数(均数均数) 常用常用 (样本样本) 、 (总体总体) 指标指标 几何均数几何均数G 中位数中位数M常用指标常用指标 1. 均数均数 ( mean) 算术均数算术均数 (arithmetic mean) 条件:观察值呈正态分布或近似正态分布条件:观察值呈正态分布或近似正态分布 (对称或近似对称分布对称或近似对称分布)的资料的资料 公式:直接法公式:直接法 加权法加权法 x0为组中为组中值值 特性:特性:
52、 2. 几何均数几何均数 G (geometric mean) 条件:观察值呈倍数条件:观察值呈倍数(等比级数等比级数) 或对数正态分布的资料。或对数正态分布的资料。 公式:公式:直接法直接法 加权法加权法 注意:注意: 观察值不能有观察值不能有0; 数据不能同时有正值与负值。数据不能同时有正值与负值。 同一资料的同一资料的G ,不拒绝不拒绝H0 。 (二二)基本步骤基本步骤 1. 建立检验假设,确定检验水准建立检验假设,确定检验水准 无效假设无效假设 ( null hypothesis ) H 0, 备择假设备择假设 ( alternative hypothesis ) H 1 检验水准检验
53、水准 ( significance level ) 0.052. 选择适当检验方法,计算相应检验统计量选择适当检验方法,计算相应检验统计量 所有检验统计量都是在所有检验统计量都是在H0成立的前提下成立的前提下计算出来的。计算出来的。 P 值值从从 H 0 规定的总体中随机抽得规定的总体中随机抽得 现有样本所得检验统计量绝对值的概率。现有样本所得检验统计量绝对值的概率。3. 确定确定 P 值,作出统计推断值,作出统计推断(统计结论和专业结统计结论和专业结论)。论)。假设检验的功效假设检验的功效(一一) 假设检验中两类错误的概念假设检验中两类错误的概念 可取单尾或双尾,可取单尾或双尾, 只取单尾。
54、只取单尾。客观实际客观实际假设检验结果假设检验结果 拒绝拒绝H0 不拒绝不拒绝H0H0成立成立H0不成立不成立类类(假阳性假阳性)错误错误 推断正确推断正确 P(弃真弃真)= (1 ) 推断正确推断正确 类类(假阴性假阴性)错误错误 把握度把握度(1 ) P(存伪存伪)= (二二) 假设检验的功效假设检验的功效(1 )(power of test) 检验效能检验效能(把握度把握度)(1 )的意义:的意义: 当所研究的总体与当所研究的总体与 H0 确有差异时,按检验确有差异时,按检验水准水准 能够发现该差异(拒绝能够发现该差异(拒绝 H0 )的能力的能力(概率)。(概率)。 1. 一组样本资料一
55、组样本资料 t 检验的功效检验的功效 为欲为欲发现的最小差异或容许误差发现的最小差异或容许误差 2. 两组独立样本资料两组独立样本资料 t 检验的功效检验的功效3. 二项分布两组独立样本资料二项分布两组独立样本资料 Z 检验的功效检验的功效(三三) 、类错误的关系及意义类错误的关系及意义1. 、类错误的关系类错误的关系 (1) 当当n一定时,一定时, , ;反之;反之 , 。 (2) 统计推断中,统计推断中,、类错误均有可能发生。类错误均有可能发生。 要使要使 及及 ,需,需n 。 (3) 当当n一定时,可用一定时,可用 的大小来控制的大小来控制 的大小。的大小。 2.了解两类错误的意义了解两
56、类错误的意义 (1)估计样本含量;估计样本含量; (2)计算可信度计算可信度(1 ) ,表明统计推断,表明统计推断 可靠性大小;可靠性大小; (3)计算把握度计算把握度(1 ) ,评价检验方法,评价检验方法 效能等;效能等; (4)有助于研究者选择适当的检验水准;有助于研究者选择适当的检验水准; (5)可说明统计结论的概率保证。可说明统计结论的概率保证。(四四) 假设检验注意问题假设检验注意问题 1. 严密的研究设计严密的研究设计 样本于总体同质,随机样本,组间可比样本于总体同质,随机样本,组间可比 2. 检验方法正确检验方法正确 3. 正确理解正确理解P值意义值意义 P值小只说明犯值小只说明
57、犯类错误的机会小,不表类错误的机会小,不表明总体参数间的差异大。明总体参数间的差异大。 P用用“有统计学意义有统计学意义”(statistical significance)及表明及表明 P 的数值或不等式表示,的数值或不等式表示,不用不用“差异显著差异显著”、“差异非常显著差异非常显著”表示。表示。 4. 结论不能绝对化结论不能绝对化 因存在两类错误因存在两类错误 5. 统计结论与专业结论相结合统计结论与专业结论相结合 有统计学意义不等于有实际意义;有统计学意义不等于有实际意义; 无统计学意义不等于无实际意义。无统计学意义不等于无实际意义。 6. 增大增大 n 易得有统计学意义的结果。易得有统计学意义的结果。