抽样(sampling)－金锄头文库

资源描述

《抽样(sampling)》由会员分享，可在线阅读，更多相关《抽样(sampling)（3页珍藏版）》请在金锄头文库上搜索。

1、抽样(sampling) 概述抽样就是从较大的总体中选出一些样本，以便进行提问、调查和检测等工作，最后归纳出关于总体的结论。适用场合当需要获得关于总体的一些结论时；当考察总体需要很高的成本，存在一定困难，或占用大量的时间时；例如：当在产品生产过程中或完成之后监测产品质量时；当审查文档与生产过程的一致性时；当收集员工或顾客的偏好或反馈时；当在大范围生产测试新产品时。实施步骤如果是刚接触抽样的方法，可以先查看下页的重要定义，给出了抽样方法的一些相关概念的解释，然后再回到抽样的实施步骤：1 确定研究的总体，提出抽样的计划。2 允许的极限误差以及置信水平，具体使用数据的相关人员应该参与设定。3 选

2、择抽样的方法和样本容量 n，要在成本和精度的要求之间作出权衡。可以在互联网上完成简单随机抽样的样本容量的计算。对于其他的抽样方法，请统计学家帮助确定合适的样本容量。4 将抽样的计划文档化。包括何时以及如何进行抽样。如果是持续的抽样过程，准备类似核算单形式的工具协助进行抽样。5 实施抽样。示例案例是描述各种抽样方法的最好方式。假设一个公司希望对遍布在世界各地的 10458 名员工进行一次调查。员工集体就是研究的总体，项目小组已经确定了要提问的问题，然后他们聚集到一起计划采取的抽样方法。简单随机抽样(Simple Random Sample)。冈侯(Gung Ho)发起了讨论：“我已经利用互联

3、网的样本容量计算器计算出，对于误差范围为 5，置信区间为 95%的指标，我们需要 371 个样本。我们可以再利用互联网的随机数生成器在 110458 之间随机的产生 371 个数字，并且已经给每个员工分配了一个惟一的数字，这样拥有那些数字的员工就形成了样本。 ”系统抽样(Systematic Sample)。艾玛辛克尔(Ima Thinker)说：“员工名单是把不同地区、不同部门、不同性别的员工完全随机排序形成的。我们为什么不这样做：随机地取一个起始点，可以投骰子决定，如出现的是 4 点，我们就从名单的上第 4 个开始，每隔 28 人抽取一个样本，因为 10458 被 371 除等于 28。

4、”方便抽样(Convenience Sample)。曼尼玛尼柏格斯(Manny Moneybags)说：“为什么要浪费时间，我们这幢大楼里就不止 371 名员工，只要对每个人进行凋查，今天下午就能得到我们需要的答案。 ”幸运的是，工作组的其他成员指出并说服了他，因为只有完全随机抽取的 371个样本才是有效的。而且即使调查了这幢大楼里的所有员工，得到的样本也,不能代表所有的员工。（曼尼玛尼柏格斯曾经领导开展了一次顾客调查，只调查了打进呼叫中心电话的前 10 名顾客。在这个存在偏倚的方便样本中，东海岸地区的顾客以及早起的人占据了过大的比重，而完全忽略了互联网上的用户。)整群抽样(Cluster

5、Sample)。维拉普拉克提克 (Vera Practical)说：“你还是没有完全明白抽样。使用你所说的方法，固然可以减少访谈员的旅费，但我们想要获得更多、更好的信息必须由经过培训的访谈员作面对面的访谈调查。我有一个主意：将所在的每个地区看作一个群，从24 个群中随机选取几个，然后在这些地区群中随机抽样。虽然需要的样本容量更大了，但是由于节省了旅费总成本反而降低了。可以请统计学家帮助确定样本的容量。 ”分层抽样( Proportional Stratified Sample)。威尔普莱危(Will Prevail)大声地说道：样本必须来自不同经历的人群，从而确保获得的是具有代表性的反馈。简单

6、随机抽样和系统抽样都不是最直接的方法，分群的抽样也不能达到要求。应该将全部员工分成四组：5 年以下工作经验的员工；510 年工作经验的；1020 年工作经爱的；20 年以上工作经验的。从每组中按相同比例随机抽取样本。由统计学家确定样本容量，不能少于 371。而且，维拉玛丽(Vera Marie)，我们也可以使用电话访谈；” 重要定义总体(population or universe)研究的个体或项目的全体。抽样范围(sampling frame) 用来代表总体的列表，样本要在该总体中抽取。样本( sample) 从总体中抽取的包含相对较少的个体或项目的集合。抽样( sample) 从总体中抽取

7、一组个体或信息以进行分析、检验。随机样本( random sample)使用让每个个体都有同等的机会被抽到的方法获得的样本。典型样本(representative sample)由能反映总体的全部特征的个体或信息组成的样本。例如，从浏览网页的客户中抽取的样本就不具备典型性，因为它不能反映没有电脑或不使用电脑购物的客户的信息。抽样误差(sampling error)由样本估计的结果与如果进行全数检验会得到的结果之间的差距。由样本估计的结果几乎不可能正好等于未知的真值。真实的抽样误差通常也无法得知，但是可以计算出极大值。误差范围( margin of error)或置信区间(confidence

8、interval)或容差要求(tolerance specification)真值的估计区间。可以由统计公式求得。例如，一个候选人在接受调查的选民中的支持率是 38%，误差范围为 4%，这就意味着他的实际支率很可能是在 34%42%这个范围内。但是没有其他信息，你就无法得知这个可能性到底有多高，因此还需要用到置信水平。置信水平(confidence level)重复抽样的真值落在算出的置信区间内的可能性。在上面选举的例子中，假设置信水平是 95%。如果选举重复进行很多次，那么就有 95%的选举（或 20次中的 19 次）的真值会落在置信区间内。对置信区间的另一种理解是犯错误的概率，在这个例子中

9、是 5%。在使用“置信区间”描述范围时，应该同时说明置信水平。本例中误差范围为4%就意味着置信水平为 95%的置信区间。准确度(accuracy)由样本得到的估计值与真值的接近程度。精确度(precision) 由样本得到的估计值与如果进行全数检验会得到的结果的相近程度。偏倚( bias)因抽样方法导致的样本与总体的差异。注意事项抽样的一个优点是比对总体进行调查的结果更准确。这似乎不合逻辑因为存在抽样误差，所以 100%检验好像应该更精确一些。但其他类型误差同样会导致 100%检验的结果与真值的偏离，如报告误差和无响应误差。这几类误差带来的影响通常要大于抽样误差，而且无法测量或估算。调查较少

10、的样品，就可以更仔细地计划、培训和实行，以减少这几类误差。选取合适的抽样范围是抽样成功的关键。理想的抽样范围应该包括预期的整个总体，排除那些预期总体之外的样品，避免重复，以及最新、最准确的样品数据。假设预期的总体是即将到来的一次选举的所有投票者。众所周知的一次错误的民意调查是预测杜威( Dewey)将击败杜鲁门(Truman) ，就是因为选择了不恰当的抽样范围：电话簿。1948 年，很多生活在乡村的选民还没有电话机，更合适的抽样范围应该是官方登记的投票者名单。但是调查怎么才能包括从现在到最后截止期限这段时间登记的人呢？还有虽然登记了但是没有选举目标的人所以确定合适的抽样范围就要靠对抽样这项工作

11、相当熟悉的人的洞察力了。样本容量增大，抽样误差刚开始是随之减小，当达到一个极限点，增加样本容量就不能再减小抽样误差了。同样，随着总体的扩大，所需样本容量增加的幅度变得相当的缓慢，样本在总体中占据的比重也就越来越小，直到样本容量的选取完全不取决于总体的数目。例如，一个容量为 1000 的样本无论对 50000 还是 200000 000 的总体，误差范围都是 3.1%。这就是为什么只要对 1000 名投票者进行调查就可以估测出整个美国的选举倾向。确定样本容量一定要注意：它是根据反馈的概率 p 计算出来的。当然一般情况下 p 是事先无法得知的，因此，大部分样本容量的计算工具假设 p=50%，这是最

12、差的情况，即得到的是需要的最大样本容量。如果能预测出 p 值，就可以输入具体的 p 值来计算样本容量了。或者经过分析得到比假设更小的 p 值，再重新计算数据更小的置信区间。不能凭想像产生随机数。因为人脑存在思维定势，所以用这种方法产生的数据一般都不能通过随机性测试。可以使用统计软件或互联网提供的随机数产生器。如上例所述，方便抽样是不可取的。但如果不可避免要使用这种方法，如要测试一种新的培训方法而不得不选取登记参加这项课程的所有学员作为样本，则至少要进行一些检验以观察样本是否存在偏倚。当各层内的样品几乎一致而层和层之间存在差异时，分层抽样的效果最好：分组抽样与之相反，当每组内都存在和整体相似的差

13、异时能达到最优的效果，这样所有组群都很相像。现实中，整群抽样一般是用来消除由地理位置带来的差异，群内的样品相似而群间存在差异。对于同样的样本容量，分层抽样的结果比随机抽样的结果精确，而整群抽样结果的精确度则要低于随机抽样。因此，应尽量避免根据地理位置进行整群抽样。但如果考虑到成本和效率而必须采用整群抽样时，则要请统计专家帮助去除所有非随机性因素。当按生产批次分组时可以使用整群抽样，这时不同的批次都很近似。当采取系统抽样时，要注意出现偏倚。例如，如果每隔 1 小时进行一次抽样，班次的改变可能会对抽样产生影响。更好的抽样方法是同样每隔 1 小时进行一次抽样，但是要将 1 小时分为 6 个 10 分钟的区间，再通过掷骰子决定在哪个区间段抽样。参阅“假设检验”了解其他基于抽样进行决策的方法。这里只对抽样进行了概述。要了解更多具体的细节、或要解决重要的工程问题、或为了保证质量而要策划一个高效的抽样计划等则需要咨询统计专家。END

展开阅读全文

抽样(sampling)

最新文档