本科“统计学”——第四章-统计数据的获取与质量

资源描述

《本科“统计学”——第四章-统计数据的获取与质量》由会员分享，可在线阅读，更多相关《本科“统计学”——第四章-统计数据的获取与质量（83页珍藏版）》请在金锄头文库上搜索。

1、第四章统计数据的获取与质量第一节统计数据的获取第二节统计数据的质量第三节调查方案设计第四节数据的预处理学习目标了解统计数据的获取方法了解数据误差及对数据的质量要求掌握调查方案的设计了解统计调查方式第一节统计数据的获取抽样普查数据获取观测研究概念要点观测研究是观察一些个体并度量我们感兴趣的变量但并不试图影响回应观测研究的目的是描述一个团体或一种状况在只观测不干扰的情形下搜集信息实验研究概念要点 1 实验时会刻意对某些个体加上某项处理以期能够观察其反应 2 实验的目的是要研究某种处理是否确实会引起某种反应实验会对个体做某件事情然后观察个体的反应观察数据与实验

2、数据观察数据不对被调查对象数据产生的条件施加任何控制通常但不一定是众多因素作用的结果实验数据对数据产生的条件实施控制通常但不一定是单一因素作用的结果观测是次于实验的第二选择但可惜的是有时候我们却只能选择观察随机化比较实验可能是统计学中最重要的概念要证明一个变量会影响另一个变量实验是提供证据的金字招牌双盲试验 Double blindexperiment 不论受试对象还是会和受试对象有互动的人都不知道哪位受试对象接受了何种处理美国法律新的处方或医疗装置必须经过随机化双盲试验来证明其安全性和有效性胃冷冻失败了试验伦理实施研究的机构必须设立试验审查委员

3、会负责事先审查所有的研究对象以保护受试对象免于受到可能的伤害在搜集资料前研究中的每一个受试对象都必须知情且同意参加试验任何人的资料必须保密只有整体的统计结果可以公开实验设计的逻辑用随机化方法将受试对象分组且保证各组在实施处理之前在各个方面都类似美国是否值得执行儿童学前教育计划历时20年用比较的设计以确保除实验上的处理外其他所有因素都会同样作用在所有的组上因此反应变量的差异必是处理的效果所致坏实验的根源潜在变量对研究中其它变量间的关系有重要影响却未被列为解释变量的变量网上学习与教室学习效果一样好原有知识水平交叉变量两个变量对反应变量的影响混在

4、一起无法区分交叉变量可以是解释变量也可以是潜在变量真实实验中还可能遭遇到受试者拒绝参加不合作中途退出等问题令人信服的实验其关键在于随机化遵循以整个总体为背景进行随机化抽样的原则控制有安慰剂的控制组进行对比实验克服安慰剂效应受试对象足够多满足大数定理的要求可惜的是有时候我们却只能选择观察例如研究野生动物的习性研究国民经济的发展研究企业的经营状况研究股票的发展趋势抽样调查概念要点抽样调查是很重要的一种观测研究具有经济性时效性强适应面广准确性高等特点抽样调查根据随机原则从总体中抽取部分单位做为样本加以调查研究以样本指标去推算总体指标的一种专门组织的

5、非全面调查抽样调查由于遵循随机原则样本单位的选取不受调查者主观意识的影响抽样调查既是搜集统计资料的方法也是对调查对象进行科学估计和推断的方法抽样调查就是从某个特定总体中抽取样本然后从样本中推断整个总体的信息普查概念要点普查是企图把整个总体纳入样本的抽样调查属于全面调查涉及面广工作量大且调查对象随着时间的推移不断变化同时在空间分布上也会有较大的变动故一般需要规定统一的标准调查时间数据的规范化程度较高通常是一次性或周期性的目的在于取得详细资料从时间金钱及可行度上抽样更为划算即使有政府的强大资源做后盾普查也不是一定做得到而且有些检查是破坏性的普查并不

6、适用另外比起全面普查较小的样本反而反而可能会得到较精确的结果因为人员心烦的时候数据往往也会混乱普查试图取得总体中每个个体的信息比较重点调查和典型调查概念要点重点调查从调查对象的全部单位中选择少数重点单位进行调查如钢铁行业的宝钢鞍钢武钢等重点单位的数量不多但它们的标志总量在总体标志总量中占绝大比重因而能反应总体的基本情况及基本发展趋势重点调查比普查节省人力财力时间当调查任务只要求掌握总体基本情况而总体中确实存在重点单位时采用重点调查比较适宜但由于重点单位与普查中的一般单位差别较大不能用重点调查的结果来推算总体的指标比较重点调查和典型调查概念

7、要点典型调查根据统计调查的目的和要求在对被研究现象进行全面分析的基础上有意识地选择若干具有典型意义的或有代表性的单位进行的一种专门组织的非全面调查具有灵活机动通过少量典型即可取得深入详实的统计资料的特点但典型单位选择往往受到人们主观认识的影响为防止片面性典型调查必须与其他调查方式相结合典型调查可以补充全面调查的不足也可用于验证全面调查数据的真实性做到定性与定量分析相结合在特定条件下典型调查也可用于统计数据质量的检查或对总体数量的推算第二节统计数据的质量抽样结果就一定准确吗统计数据的误差来源统计数据的质量要求盖洛普的崛起文摘杂志1890 1938年间在美

8、国相当普及从1916年开始每次选举前都预测出了总统选举的获胜者 1936年该杂志邮寄了1000万份调查表并自豪地宣布照以往的判断标准预测结果的误差将在1 之内最后该杂志回收了240万份问卷分析结果为兰登将获得57 的选票而罗斯福只能得到43 的选票刚刚成立不久的盖洛普研究所仅仅从美国选民中随机抽取了2000多选民预测结果为罗斯福会得到54 的选票并获胜真实的结果是罗斯福获得了压倒多数的62 的选票盖洛普以悬殊的样本容量取得了正确的预测结果从此名声大震从1936年的大选开始盖洛普总是用1000 1500人的样本快速准确地对每届总统选举进行了预测误差在2

9、以内而当时的美国成年人已接近2亿事件背景文摘取样是基于两个来源电话簿和汽车注册档案在上世纪30年代在美国拥有电话和汽车的家庭都属于中产阶级多是共和党人中的保守阶层 1936年美国由于经济政策的分歧在政治上发生分裂共和党中的保守阶层对过去四年中民主党罗斯福的执政结果非常不满意特别希望改变现状从而这类选民比其他选民更愿意回复文摘的问卷调查文摘的民意测验依靠的是自愿回答问题你认为盖洛普采用的何种调查方法盖洛普的随机抽样盖洛普认为随机性是民意调查的基础只有真正随机地选择被提问的人才能确保每一个人都有机会被提问也就确保了提问结果能真正反映公众的民意盖洛

10、普的研究显示在任何一个特殊场所如商店体育馆火车站等地找到的人都不能完全代表所有的人只有去人们家里向人们提问才能确保被提问的人代表了所有的人盖洛普的随机抽样从30年代到80年代中期盖洛普民意调查研究所的调查员主要是在美国各地按照随机抽样的名单去每个人家里面对面的提问在这50年的时间里盖洛普民意调查研究所对12次美国总统选举的调查显示盖洛普民意调查的准确率非常高 80年代中期以后由于95 的美国家庭都拥有了电话使得利用电话进行调查成为可能同时也使调查费用大大降低调查结果也能得以迅速发表盖洛普的随机抽样可是决定给哪些人打电话进行下面提问还有一个问题那就是在确定10

11、00个电话号码时要确保所有家庭的电话都有被随机选取的可能采用现成的电话号码簿并从中选择样本号码要省事得多但是这样可能会引起抽样偏差因为大约有30 的美国居民电话并不注册公开使公司先有一份美国大陆各州所有家庭电话号码簿是一个复杂的过程开始应当是具有全美所有电话交换总机的清单以及这些电话交换总机服务的居民家庭数量然后计算机采用一种名为随机号码拨号的程序从这些电话号码中随机产生样本电话号码另外在提问时确保提问方式的中立性也是很重要的因为这样才能不对被提问者如何回答产生误导抽样好样本与坏样本文摘的坏样本有偏抽样方便样本调查结果受到调查者的控制自发性回应样本调查结

12、果受到受访者的左右盖洛普的好样本简单随机抽样确保抽样结果的无偏性一统计数据的误差来源数据的误差抽样误差抽样框误差回应误差处理误差数据的误差非抽样误差 non samplingerror 非抽样误差是由于调查过程中各个环节工作失误造成的主要有抽样框误差如果总体的某些部分未被纳入抽样框中则抽样过程就会出现涵盖不全问题可以避免抽样框将所有总体成员列成清单以便于我们从中抽取样本回应误差受访人员无回应或给出错误答案时造成的误差处理误差手工输入计算错误等在计算机帮助下该类错误已大大减少存在于所有的调查之中包括全面调查抽样调查可以避免抽样误差 sa

13、mplingerror 抽样误差是利用样本推断总体时产生的误差由于样本只是总体的一部分抽样误差总会存在不可避免但可以衡量置信描述误差界限与置信水平二统计数据的质量要求误差的控制非抽样误差可以避免方法主要有调查员的挑选调查员的培训督导员的调查专业水平调查过程控制调查结果进行检验评估现场调查人员进行奖惩的制度抽样误差不可避免可以计算置信描述和控制样本量的选取抽样两原则随机抽样利用随机抽样可以得到样本对总体的无偏估计样本量足够大在坚持随机抽样的前提下增大样本量可以使样本统计结果的变异性无限小随机抽样误差是样本统计量与总体参数之间的差距源于随机性误差界

14、限指出样本统计量离总体参数有多远此误差界限只体现随机抽样误差置信水平说明所有可能样本中有多少百分比满足这样的误差界限 95 是常用的置信水平常被视为默认值盖洛普的表述调查发现 57 的美国成年人在过去12个月内曾购买彩卷我们有95 的信心认为所有美国成年人真正购买比例会在这个样本结果的正负3个百分点之内此处仅指随机抽样导致的变异性误差现实世界中常用的抽样方法常见的抽样方法概率抽样 probabilitysampling 根据一个已知的概率来抽取样本单位也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的

15、或是可以计算出来的当用样本对总体目标量进行估计时要考虑到每个样本单位被抽中的概率简单随机抽样 simplerandomsampling 从总体N个单位中随机地抽取n个单位作为样本使得每一个总体单位都有相同的机会概率被抽中抽取元素的具体方法有重复抽样和不重复抽样特点简单直观在抽样框完整时可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时不易构造抽样框抽出的单位很分散给实施调查增加了困难没有利用其他辅助信息以提高估计的效率分层抽样 stratifiedsampling 将总体单位按某种特征或某种规则划分为不同的层然后从不同的层中独立随机地抽取样本

16、优点保证样本的结构与总体的结构比较相近从而提高估计的精度组织实施调查方便既可以对总体参数进行估计也可以对各层的目标量进行估计缺点客观上破坏了整体抽样的概率均等原则故在利用样本估计总体时必须对数据进行修复性校正参见相关资料系统抽样 systematicsampling 将总体中的所有单位抽样单位按一定顺序排列排列的标识可以是与调查目的相关的也可以是无关的主要取决于辅助资料的占有情况和提高抽样估计精度的目的在规定的范围内随机地抽取一个单位作为初始单位然后按事先规定好的规则确定其他样本单位最简单的系统抽样是等距抽样先从数字1到k之间随机抽取一个数字r作为初始单位以后依次取r k r 2k 等单位优点操作简便可提高估计的精度缺点表面上行之有效的系统抽样可能不是严格的概率抽样方差估计比较困难在通常意义上不可能找到无偏估计量整群抽样 clustersampling 将总体中若干个单位合并为组群抽样时直接抽取群然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框可简化工作量调查的地点相对集中节省调查费用方便调查的实施缺点是估

展开阅读全文