卫生统计学 夏结来 第四军医大学 第三章 数据的产生 卫生统计学第八版李晓松数 据 目录 第一节:数据的来源 第二节:随机对照试验 第三节:简单随机抽样 第四节:抽样的可靠性与代表性 第五节:伦理问题 01 02 03 04 05 卫生统计学第八版李晓松数 据 重点难点 轶闻数据与可得数据 实验性研究与观察性研究 实验设计的基本原则 总体与样本、参数与统计量 简单随机抽样 偏倚 卫生统计学第八版李晓松数 据 第一节 数据的来源 卫生统计学第八版李晓松数 据 1. 轶闻数据 (1)由杂志、报纸、电视、互联网或其它媒体报道的一些个案数据,由于其特殊性 往往给公众留下突出和深刻的印象 (2)特点:缺乏代表性,常诱导人们进行简单的推论,得到一些具有倾向性的结论 (3)如:电视广告中商家提供的数据 2. 可得数据 (1)为了某些特定目的已收集或积累的数据 (2)特点:可免费或以低廉价格获取,但通常难以完全满足某些特定的研究目的 (3)如:各类监测数据、医院临床病案数据和各类统计年鉴等 (一)轶闻数据与可得数据 第一节 数据的来源 卫生统计学第八版李晓松数 据 1. 观察性研究(observational study)与实验性研究(experimental study) (1)观察性研究中,研究者观察并测量研究对象的一个或多个变量,但不施 加任何干预措施。
(2)实验性研究中,研究者对研究对象施加处理因素即干预措施,并测量一 个或多个变量 (二)抽样调查数据与实验数据 第一节 数据的来源 卫生统计学第八版李晓松数 据 2. 抽样调查数据 (1)抽样调查的基本思想就是对总体中的一部分,即样本进行了解进而得到总 体的信息 (2)特点:观察者对被观察事物或现象在不进行任何干预的情况下所作的观察 3. 实验数据 (1)通过实验性研究所得到的数据 (2)特点:研究对象所处的状态是由研究者决定的研究者决定研究对象状态 的过程称为给予人为的干预措施 (3)实验性研究的可比性更好,因果关系的推断更具说服力 (二)抽样调查数据与实验数据 第一节 数据的来源 卫生统计学第八版李晓松数 据 由于测量本身的问题导致原始数据的准确性或可靠性存在问题,基于这样 的数据所做的任何统计分析都可能具有误导性 本章的核心问题是如何科学地产生或收集高质量的原始数据,从而在源头 上保障统计结论的准确性和可靠性 下面两节我们将以简单随机抽样和随机对照试验为例分别进行介绍,以阐 释数据收集或产生过程的核心思想 (二)抽样调查数据与实验数据 第一节 数据的来源 卫生统计学第八版李晓松数 据 第二节 随机对照试验 卫生统计学第八版李晓松数 据 1. 对照(control) (1)案例:“胃冷冻法”治疗胃溃疡是否有效。
(2)安慰剂效应:由于心理效应所产生的虚假现象 (3)对照思想:设置对照组以减少非处理因素对处理因素效应的影响 (4)标准的对照试验:将试验对象随机分配到试验组和对照组,除了对试验 组给予处理措施外,两组患者在其他方面都要被同等对待 (5)意义:鉴别处理因素与非处理因素之间的差异,是进行比较的必要基础 ;消除和减少试验误差 (一)设计原则 第二节 随机对照试验 卫生统计学第八版李晓松数 据 2. 随机化(randomization) (1)决定如何将试验对象分配到各处理组中,只有当所有处理组中试验对象的基本 情况相当时,各处理组间的效应比较才是有效的 (2)匹配定义:找到性别、年龄等变量情况相似的两组对象分别给予不同的处理 (3)匹配存在的问题:不一定能完全避免偏倚,因为有太多潜在的变量可能影响试 验的结果,很难把所有的因素都进行匹配 (4)随机化思想:使用随机的方式使每个实验对象有同等的机会被分配到各处理组 5)随机化方法:抽签 (6)随机化意义:保证了各对比组间的均衡可比性 (一)设计原则 第二节 随机对照试验 卫生统计学第八版李晓松数 据 3. 重复(repeat) (1)每组只有一个试验对象,那么试验结果可能只依赖于具有这类潜在 特质的人被分到了哪个组,但是,如果试验对象足够多,这类人的效应就 能够被平均化,两组的区别就会减少。
(2)重复思想:运用足够多的样本来降低试验的随机误差 (一)设计原则 第二节 随机对照试验 卫生统计学第八版李晓松数 据 试验对象可能具有安慰剂效应; 试验研究者的主观看法造成试验结论的偏倚; 盲法(blind):试验对象甚至试验人员均不知道试验对象接受哪一种处理; 双盲意义:双盲则避免了由试验人员和试验对象的主观意识造成的偏倚 (二)潜在的问题 第二节 随机对照试验 卫生统计学第八版李晓松数 据 第三节 简单随机抽样 卫生统计学第八版李晓松数 据 1. 总体(population) 根据研究目的确定的同质研究个体的全体 2. 样本(sample) 是为了解总体而观测的总体的一部分 3. 简单随机抽样(simple random sample, SRS) (1)随机抽样:总体中每个个体有相同的机会被选中作为样本参与调查,降低样本 的选择偏倚 (2)简单随机抽样:从总体中以相同机会抽取的n个个体称为一个简单随机样本,n 为样本量 (一)简单随机抽样 第三节 简单随机抽样 卫生统计学第八版李晓松数 据 1. 抽样涵盖不全 (1)志愿者应答样本:总体中的更有意愿完成调查的部分对象组成的样 本,不是总体的一个具有代表性的样本。
2. 测量可能存在缺陷 (1)应答偏倚:被访者被问及关于卖淫或嫖娼等敏感话题时,于法律、 道德问题而撒谎 (2)回忆偏倚:让被访者回忆过去,可能由于记忆不准确产生偏倚 (3)问题措辞:模糊或者带有引导性的问题常常产生较大的偏倚 (二)潜在的问题 第三节 简单随机抽样 卫生统计学第八版李晓松数 据 第四节 样本的可靠性与代表性 卫生统计学第八版李晓松数 据 1. 参数(parameter) (1)用于刻画总体的数值特征,如总体均数、总体中位数、总体标准差、总体率等 (2)参数被看成总体某种特征的固定数值,通常参数的确切值未知 2. 统计量(statistic) (1)用于描述样本的数值特征,如样本均数、样本中位数、样本标准差,样本率等 (2)当获得一个样本后就可以得到统计量的值,可用于估计未知参数的值 (3)统计量的值随样本改变而改变 3. 统计推断(statistical inference) 从样本数据推理而得到关于总体的结论 第四节 样本的可靠性与代表性 卫生统计学第八版李晓松数 据 第四节 样本的可靠性与代表性 卫生统计学第八版李晓松数 据 第四节 样本的可靠性与代表性 卫生统计学第八版李晓松数 据 第四节 样本的可靠性与代表性 当用统计量来估计总体参数时,统计量会随着抽样结果的不同而不同, 该现象可能影响我们采用统计量来估计总体参数的质量。
由抽样引起的统计量与统计量之间或者统计量与总体参数之间的变异不 是无规律的,而是具有某种潜在的模式 卫生统计学第八版李晓松数 据 1. 变量的总体分布 总体中所有个体观测值的分布 2. 统计量抽样分布 统计量的分布规律,描述了从同一总体重复抽样时,统计 量会有些什么样的值,以及每个值出现的可能性大小 (一)抽样分布 第四节 样本的可靠性与代表性 例3 某环境监测点2015年1月1日至2月28日对每小时PM10浓度值进行监测 图 (A)采用某环境监测点监测时间内每小时的PM10浓度值,描述的是总体分布 图 (B) 从这个总体中随机抽样(每次样本量为50),共抽取100次得到的100个样本均 数的分布 卫生统计学第八版李晓松数 据 (一)抽样分布 第四节 样本的可靠性与代表性 图(B) 样本均数的抽样分布图 图(A) 所有个体测量值分布图 (总体分布) 从图知,样本均 数的变异程度小 于个体观测值 卫生统计学第八版李晓松数 据 重复抽样过程 从总体中进行简单随机抽样,每次抽取的样本量为n 计算出统计量 重复上述两步,即从同一个总体中反复多次独立地随机抽样后获得多个统计量 展示多个统计量的分布特征。
(一)抽样分布 第四节 样本的可靠性与代表性 卫生统计学第八版李晓松数 据 (一)抽样分布 第四节 样本的可靠性与代表性 重复抽样过程(统计量为样本均数) 卫生统计学第八版李晓松数 据 (一)抽样分布 第四节 样本的可靠性与代表性 重复抽样过程(统计量为样本率) 卫生统计学第八版李晓松数 据 1. 抽样变异与抽样误差 (1)统计量的值在重复随机抽样的样本中各不相同,这种统计量随着样本的变化而 变化的现象称为抽样变异(sampling variability) (2)抽样误差(sampling error)表达了统计量与待估计总体参数之间不完全相等的事 实,而抽样变异则形象地说明了不同样本间的统计量存在变异 (二)抽样误差 第四节 样本的可靠性与代表性 卫生统计学第八版李晓松数 据 (二)抽样误差 第四节 样本的可靠性与代表性 例1续 就器械锻炼的流行病学调查而言,假设人群中实际有60%的人抵触器 械锻炼可用计算机设计程序抽取多个简单随机样本,为每个样本计算出 一个样本率p,将所有的样本率p的值绘制成直方图 图(A):从率为0.6的总体中分别抽取1000个样本量为100的简单随机样 本的样本率p的分布。
图(B):从相同的人群中抽取1000个样本量为2500的简单随机样本,并 重新计算得到1000个样本率p,并绘制出直方图 卫生统计学第八版李晓松数 据 (二)抽样误差 第四节 样本的可靠性与代表性 图(B)1000次抽样的样本率(n=2500)图(A) 1000次抽样的样本率(n=100) 比较两个直方图, 可以看出增加样本 量对样本率p抽样分 布的影响 卫生统计学第八版李晓松数 据 (二)抽样误差 第四节 样本的可靠性与代表性 卫生统计学第八版李晓松数 据 3. 标准误(standard error) (1)定义:统计量的标准差,反映了由抽样引起的统计量与总体参数之间或 统计量取值之间的差异,定量刻画了抽样误差的大小 (2)均数的标准误:样本均数的标准差,反映了均数抽样误差的大小 (3)率的标准误:样本率的标准差,反映率抽样误差的大小 (4)用样本均数估计总体均数时,可以借助均数标准误的大小来帮助判断估 计的可靠性 (5)常常期望降低统计量的抽样变异从而获得对总体参数更可靠的估计 (6)来自随机样本的统计量,其变异大小不依赖于总体的大小 (二)抽样误差 第四节 样本的可靠性与代表性 卫生统计学第八版李晓松数 据 统计量的偏倚:抽样分布的均值与待 估计参数的差值称为统计量的偏倚, 当偏倚为零时,则称该统计量是相应 参数的无偏估计。
偏倚关注的是抽样 分布的集中位置 如果研究结果与真实结果之间存在方 向性的偏离,那么这项研究就存在偏 倚,样本不具备代表性 (三)偏倚 第四节 样本的可靠性与代表性 偏倚和变异的箭靶示意图 卫生统计学第八版李晓松数 据 第五节 伦理问题 卫生统计学第八版李晓松数 据 保证所有进入研究的个体在数据收集之前均知情同意(informed consent) 保证所有研究个体的数据保密性(confidential),仅人群水平的统计汇总报 告可以公开 所有计划实施的研究必须通过伦理审查委员会(institutional review board)的审查,避免研究对象受到可能的伤害 基本的数据伦理 第五节 伦理问题 卫生统计学第八版李晓松数 据 1. 知情同意 受试者在参与试验前需充分了解研究的性质和任何潜在风险 2. 国际医学委员会建议使用下面的方法 (1)对在社区水平上进行的研究,需征得对此试验负责的卫生行政部门的知情同意 (2)以医院为研究单位时,应当获得当地伦理审查委员会的同意 (3)当研究单位是学校、工作场所或社区时,应征得有关负责人的同意;同时,尽 可能告知社区民众该试验的研究目的、预期收。