本科“统计学”——第四章统计数据的获取与质量

资源描述

《本科“统计学”——第四章统计数据的获取与质量》由会员分享，可在线阅读，更多相关《本科“统计学”——第四章统计数据的获取与质量（83页珍藏版）》请在金锄头文库上搜索。

1、第四章统计数据的获取与质量,第一节统计数据的获取第二节统计数据的质量第三节调查方案设计第四节数据的预处理,学习目标,了解统计数据的获取方法了解数据误差及对数据的质量要求掌握调查方案的设计了解统计调查方式,第一节统计数据的获取,抽样,普查,数据获取,观测研究（概念要点）,观测研究是观察一些个体，并度量我们感兴趣的变量，但并不试图影响回应。观测研究的目的是描述一个团体或一种状况。在只观测不干扰的情形下搜集信息,实验研究（概念要点）,1. 实验时会刻意对某些个体加上某项处理，以期能够观察其反应。 2. 实验的目的是要研究某种处理是否确实会引起某种反应。实验会对个体做

2、某件事情，然后观察个体的反应,观察数据与实验数据,观察数据：不对被调查对象数据产生的条件施加任何控制；通常（但不一定）是众多因素作用的结果。实验数据：对数据产生的条件实施控制；通常（但不一定）是单一因素作用的结果。观测是次于实验的第二选择（但可惜的是，有时候我们却只能选择观察）随机化比较实验可能是统计学中最重要的概念。要证明一个变量会影响另一个变量，实验是提供证据的金字招牌。双盲试验（Double-blind experiment）不论受试对象，还是会和受试对象有互动的人，都不知道哪位受试对象接受了何种处理。美国法律，新的处方或医疗装置必须经过随机化双盲试验来证明其安全性

3、和有效性。胃冷冻失败了,试验伦理,实施研究的机构必须设立试验审查委员会，负责事先审查所有的研究对象，以保护受试对象免于受到可能的伤害；在搜集资料前，研究中的每一个受试对象都必须知情且同意参加试验；任何人的资料必须保密，只有整体的统计结果可以公开。,实验设计的逻辑,用随机化方法将受试对象分组，且保证各组在实施处理之前，在各个方面都类似；（美国是否值得执行儿童学前教育计划？历时20年）用“比较”的设计以确保：除实验上的处理外，其他所有因素都会同样作用在所有的组上；因此，反应变量的差异必是处理的效果所致。,坏实验的根源：潜在变量：对研究中其它变量间的关系有重要影响，却未被列为解释

4、变量的变量；（网上学习与教室学习效果一样好？原有知识水平）交叉变量：两个变量对反应变量的影响混在一起，无法区分。交叉变量可以是解释变量，也可以是潜在变量；真实实验中还可能遭遇到受试者拒绝参加、不合作、中途退出等问题,令人信服的实验,其关键在于：随机化：遵循以整个总体为背景进行随机化抽样的原则控制：有安慰剂的控制组进行对比实验，克服安慰剂效应受试对象足够多满足大数定理的要求,可惜的是，有时候我们却只能选择观察,例如：研究野生动物的习性研究国民经济的发展研究企业的经营状况研究股票的发展趋势 ,抽样调查 (概念要点),抽样调查是很重要的一种观测研究，具有经济性、时效性强、适应面

5、广、准确性高等特点。抽样调查根据随机原则，从总体中抽取部分单位做为样本加以调查研究，以样本指标去推算总体指标的一种专门组织的非全面调查。抽样调查由于遵循随机原则，样本单位的选取不受调查者主观意识的影响。抽样调查既是搜集统计资料的方法，也是对调查对象进行科学估计和推断的方法。抽样调查就是从某个特定总体中抽取样本，然后从样本中推断整个总体的信息,普查（概念要点）,普查是企图把整个总体纳入样本的抽样调查。属于全面调查，涉及面广，工作量大；且调查对象随着时间的推移不断变化，同时在空间分布上也会有较大的变动；故一般需要规定统一的标准调查时间，数据的规范化程度较高。通常是一次性或周期性的，目的

6、在于取得详细资料。从时间、金钱及可行度上，抽样更为划算。即使有政府的强大资源做后盾，普查也不是一定做得到；而且有些检查是破坏性的，普查并不适用。另外，比起全面普查，较小的样本反而反而可能会得到较精确的结果，因为人员心烦的时候，数据往往也会混乱。普查试图取得总体中每个个体的信息,比较：重点调查和典型调查 (概念要点),重点调查从调查对象的全部单位中选择少数重点单位进行调查（如：钢铁行业的宝钢、鞍钢、武钢等）重点单位的数量不多，但它们的标志总量在总体标志总量中占绝大比重，因而能反应总体的基本情况及基本发展趋势。重点调查比普查节省人力、财力、时间。当调查任务只要求掌握总体基本情况，

7、而总体中确实存在重点单位时，采用重点调查比较适宜。但由于重点单位与普查中的一般单位差别较大，不能用重点调查的结果来推算总体的指标。,比较：重点调查和典型调查 (概念要点),典型调查根据统计调查的目的和要求，在对被研究现象进行全面分析的基础上，有意识地选择若干具有典型意义的或有代表性的单位进行的一种专门组织的非全面调查。具有灵活机动、通过少量典型即可取得深入、详实的统计资料的特点。但典型单位选择往往受到人们主观认识的影响。为防止片面性，典型调查必须与其他调查方式相结合。典型调查可以补充全面调查的不足，也可用于验证全面调查数据的真实性，做到定性与定量分析相结合，在特定条件下，典型调查也可

8、用于统计数据质量的检查或对总体数量的推算。,第二节统计数据的质量,抽样，结果就一定准确吗? 统计数据的误差来源统计数据的质量要求,盖洛普的崛起,文摘杂志1890-1938年间在美国相当普及，从1916年开始，每次选举前都预测出了总统选举的获胜者。1936年，该杂志邮寄了1000万份调查表，并自豪地宣布，照以往的判断标准，预测结果的误差将在1%之内。最后，该杂志回收了240万份问卷，分析结果为兰登将获得57%的选票，而罗斯福只能得到43%的选票。刚刚成立不久的盖洛普研究所仅仅从美国选民中随机抽取了2000多选民，预测结果为罗斯福会得到54%的选票并获胜。真实的结果是，罗斯福获得了压倒多数

9、的62%的选票。盖洛普以悬殊的样本容量取得了正确的预测结果，从此名声大震。从1936年的大选开始，盖洛普总是用1000-1500人的样本，快速、准确地对每届总统选举进行了预测，误差在2%以内；而当时的美国成年人已接近2亿。,事件背景,文摘取样是基于两个来源：电话簿和汽车注册档案。在上世纪30年代，在美国拥有电话和汽车的家庭都属于中产阶级，多是共和党人中的保守阶层。 1936年，美国由于经济政策的分歧在政治上发生分裂共和党中的保守阶层对过去四年中民主党罗斯福的执政结果非常不满意，特别希望改变现状。从而，这类选民比其他选民更愿意回复文摘的问卷调查。文摘的民意测验依靠的是自愿回答。问题：你认为

10、盖洛普采用的何种调查方法？,盖洛普的随机抽样,盖洛普认为，随机性是民意调查的基础，只有真正随机地选择被提问的人，才能确保每一个人都有机会被提问，也就确保了提问结果能真正反映公众的民意。盖洛普的研究显示，在任何一个特殊场所，如商店、体育馆、火车站等地找到的人都不能完全代表所有的人，只有去人们家里向人们提问才能确保被提问的人代表了所有的人。,盖洛普的随机抽样,从30年代到80年代中期，盖洛普民意调查研究所的调查员主要是在美国各地按照随机抽样的名单去每个人家里面对面的提问。在这50年的时间里，盖洛普民意调查研究所对12次美国总统选举的调查显示，盖洛普民意调查的准确率非常高。 80年代中期以后，由于

11、95%的美国家庭都拥有了电话，使得利用电话进行调查成为可能，同时也使调查费用大大降低，调查结果也能得以迅速发表。,盖洛普的随机抽样,可是决定给哪些人打电话进行下面提问还有一个问题，那就是在确定1000个电话号码时，要确保所有家庭的电话都有被随机选取的可能。采用现成的电话号码簿并从中选择样本号码要省事得多，但是，这样可能会引起抽样偏差，因为大约有30%的美国居民电话并不注册公开。使公司先有一份美国大陆各州所有家庭电话号码簿是一个复杂的过程，开始应当是具有全美所有电话交换总机的清单以及这些电话交换总机服务的居民家庭数量。然后，计算机采用一种名为随机号码拨号的程序，从这些电话号码中随机产生样本电话

12、号码。另外在提问时，确保提问方式的中立性也是很重要的。因为这样才能不对被提问者如何回答产生误导。,抽样好样本与坏样本,文摘的坏样本有偏抽样方便样本：调查结果受到调查者的控制自发性回应样本：调查结果受到受访者的左右盖洛普的好样本简单随机抽样（确保抽样结果的无偏性）,一、统计数据的误差来源,数据的误差,抽样误差,抽样框误差,回应误差,处理误差,数据的误差,非抽样误差 (non-sampling error),非抽样误差是由于调查过程中各个环节工作失误造成的。主要有：抽样框误差：如果总体的某些部分未被纳入抽样框中，则抽样过程就会出现涵盖不全问题可以避免抽样框：将所有总体成员列成清单，以

13、便于我们从中抽取样本回应误差：受访人员无回应、或给出错误答案时造成的误差。处理误差：手工输入、计算错误等，在计算机帮助下，该类错误已大大减少；存在于所有的调查之中，包括全面调查、抽样调查可以避免,抽样误差 (sampling error),抽样误差：是利用样本推断总体时产生的误差。由于样本只是总体的一部分，抽样误差总会存在。不可避免，但可以衡量（置信描述：误差界限与置信水平）,二、统计数据的质量要求,误差的控制,非抽样误差可以避免，方法主要有：调查员的挑选调查员的培训督导员的调查专业水平调查过程控制调查结果进行检验、评估现场调查人员进行奖惩的制度抽样误差不可避免，可以计

14、算（置信描述）和控制（样本量的选取）,抽样两原则,随机抽样利用随机抽样可以得到样本对总体的无偏估计样本量足够大在坚持随机抽样的前提下，增大样本量可以使样本统计结果的变异性无限小随机抽样误差：是样本统计量与总体参数之间的差距，源于随机性误差界限：指出样本统计量离总体参数有多远，此误差界限只体现随机抽样误差置信水平：说明所有可能样本中有多少百分比满足这样的误差界限，95%是常用的置信水平，常被视为默认值盖洛普的表述：调查发现，57%的美国成年人在过去12个月内曾购买彩卷。我们有95%的信心认为，所有美国成年人真正购买比例，会在这个样本结果的正负3个百分点之内。（此处仅指随机抽样导致的变异

15、性误差）,现实世界中常用的抽样方法,常见的抽样方法,概率抽样 (probability sampling),根据一个已知的概率来抽取样本单位，也称随机抽样。特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的，或是可以计算出来的当用样本对总体目标量进行估计时，要考虑到每个样本单位被抽中的概率,简单随机抽样 (simple random sampling),从总体N个单位中随机地抽取n个单位作为样本，使得每一个总体单位都有相同的机会(概率)被抽中；抽取元素的具体方法有重复抽样和不重复抽样；特点简单、直观，在抽样框完整时，可直接从

16、中抽取样本用样本统计量对目标量进行估计比较方便局限性当N 很大时，不易构造抽样框抽出的单位很分散，给实施调查增加了困难没有利用其他辅助信息以提高估计的效率,分层抽样 (stratified sampling),将总体单位按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本；优点保证样本的结构与总体的结构比较相近，从而提高估计的精度；组织实施调查方便；既可以对总体参数进行估计，也可以对各层的目标量进行估计。缺点：客观上破坏了整体抽样的概率均等原则，故在利用样本估计总体时，必须对数据进行修复性校正（参见相关资料）,系统抽样 (systematic sampling),将总体中的所有单位(抽样单位)按一定顺序排列排列的标识可以是与调查目的相关的,也可以是无关的，主要取决于辅助资料的占有情况和提高抽样估计精度的目的。在规定的范围内随机地抽取一个单位作为初始单位，然后按事先规定好的规则确定其他样本单位最简单的系

展开阅读全文

本科“统计学”——第四章 统计数据的获取与质量

本科“统计学”——第四章统计数据的获取与质量