抽样及样本容量统计培训教材

资源描述

《抽样及样本容量统计培训教材》由会员分享，可在线阅读，更多相关《抽样及样本容量统计培训教材（66页珍藏版）》请在金锄头文库上搜索。

1、抽样及样本容量 (Sampling & Sample Size),什么是抽样及为何要进行抽样？,抽样是收集所有数据的一部分。使用该部分数据得出结论（进行推论）。为什么要进行抽样？因为查看所有数据可能成本太高。费时太长。造成破坏（例如、品尝测试）。一般可从比较少量的数据得出可靠的结论。,总体情况：在操作上您可以定义现存的总体的边界、以便可以认出总体的每个个体、在理论上还可以进行编号。抽样目的：描述该总体的特征。示例：抽样调查（8 月 31 日以前毕业的）大学校友、以确定在今后两年中他们至少将一个小孩送进大学的百分比。,总体和过程,样本,过程情况：过程是动态的且不断变化

2、的；过程中的个体并不是全可以鉴定的、因为某些个体尚不存在（如明天制造的那些个体）。目的：了解过程、以便采取行动改进或预测过程未来的行为。示例：我们估计下月发票中有 5% 至 20% 有错误（除非更改该过程）。,总体和过程（续）,抽样和改进项目,确定过程周期和缺陷比率的基准性能；（例如：在控制图上绘出样本数据）估计过程能力；（例如：计算一件样本中的缺陷）确定造成性能低下或数据变动的因素 (X)；（利用样本数据绘制图表、进行假设测试或回归分析）验证建议的改进工作；（比较从过程中抽取的新数据与从该过程抽取的旧数据）监视过程性能、必要时采取补救措施、并预测未来的性能；（在控制图

3、上绘出新过程的样本数据）,改进项目一般是对过程情况进行抽样：,为什么要区别总体抽样和过程抽样？,样本容量公式是为定义明确的静态（而且常常是理论上的）总体情况设计的。但是大多数抽样应用是针对动态的、尚未知的过程情况。将样本容量公式应用于过程抽样情况可能得出错误的结论、除非满足一定的条件。要使推论有效、样本必须真实地代表总体或过程。总体所需的抽样策略不同于过程所需的抽样策略、以确保样本具有代表性（在下一节中讨论）。,从稳定的过程中抽样,如果过程是稳定的、样本容量公式可应用于过程情况。可获得具有特定精度的可靠估计值。当进行比较时、如果存在的差异具有一定功效、便可找出它们。,从不稳定

4、的过程中抽样,然而许多过程是不稳定的。无论如何总要收集数据、并绘制控制图或时间曲线图。识别特殊原因并清除之。使用样本容量公式求出的值是您应认为最小的数字；可能的话，需要收集更多的数据。存在特殊原因时，需要更大的样本容量，因为长期变动大于短期变异。使用公式时，您必须估计s（或 p）；您必须判断特殊原因如何影响该估计值，并根据您认为过程将会是什么情况来调整它。,从不稳定的过程中抽样（续）,当进行组之间的比较时：尽量在相同时间内获取每组的样本。当作结论或报告结论时、会存在这样一个风险、即这些结论可能不适用于将来。如果过程是不稳定的，可能的话，将一段很长的时间里得到的数据绘制于

5、一张控制图上，并圈出或特别标示您的样本所代表的数据点或时间区间。允许您和他人可直接从曲线观察过程的行为。帮助您判断这些结论在未来的可靠性。,从过程中抽样,对于过程情况，我们希望确保能够理解过程的行为。因此我们：在一段时间内进行系统或整群（非随机）抽样。即使随机抽样能适用于稳定过程，我们仍采用系统或整群抽样，并保持时间顺序以便能更好地表示过程行为。尽量从足够长的时间段中进行抽样，以便真实地表示过程中的变化源。运用您自己的判断和有关变化源的过程知识来确定多长时间进行一次抽样（每隔 10 个个体、每隔 7 个个体、每天、每月等）。一般情况下、更加频繁地收集小样本、可确保随着时间的

6、过去能真实地表示过程行为。绘制控制图或时间曲线图，以确定该过程是稳定的还是不稳定的（寻找非正常值、偏移、趋势或其它模式）。,抽样方法,代表性样本,要使结论有效，样本必须具有代表性。数据应真实地表示总体或过程收集的数据与未收集的数据之间不应存在有系统性的差异。,每个单元具有相同被选中的机会从每个组随机抽样一个成比例的数字,随机抽样分层随机抽样,样本,总体,样本,总体,AABBBBCDDD,A,A,A,A,B,B,B,B,B,B,B,C,C,D,D,D,D,D,D,B,概率抽样,每隔 n 个抽样（如每隔三个抽样）每经过时间 t 抽样 n 个单元（例如，每小时抽样三个单元）；然后计

7、算每个小组的平均值（比例）,系统抽样整群抽样,统计调查的误差（抽样误差）：是指调查所得结果与总体真实数值之间的差异。可分 1、登记性误差：指在调查和汇总过程中，由于观察、测量、登记、计算等方面的差错或被调查者提供虚假资料而造成的误差。（不是抽样调查独有的）尽量避免 2、代表性误差：指用样本指标推断总体指标时，由于样本结构与总体结构不一致、样本不能完全代表总体而产生的误差。它又分 -2-1、系统误差：指由于非随机因素引起的样本代表性不足而产生的误差，表现为样本估计量的值系统性偏高或偏低，故也称偏差，尽量避免如抽样框与目标总体不一致、有意多选较好或较差的单位等； -2-2、随机

8、误差：又称偶然性误差，指遵循随机抽样原则，由于随机因素（偶然性因素）引起的代表性误差。不可避免，但需加以计算与控制抽样估计中所谓的抽样误差，就是指这种随机误差，即由于抽样的随机性而产生的样本估计量与总体参数之间的代表性误差。,抽样误差,抽样误差的3个概念,1、实际抽样误差：-实际上总体参数是未知数，不可计算 2、抽样平均误差： 3、抽样极限误差：是指在一定的概率下抽样误差的可能范围，也称为允许误差。用表示抽样极限误差，即在一定概率下，抽样误差率=（抽样极限误差/估计量）*100% 抽样估计精度=100%-抽样误差率,如|xxbar-X|xbar,抽样总结,本单元包括：抽样是查看所有

9、数据的一种有效率和效果的方法。总体抽样与过程抽样有不同的目的和方法。代表性是抽样最重要的一方面。正确抽样使您对结论有信心。总体抽样的样本容量公式可适用于稳定过程。,样本容量（Sample Size）,样本容量介绍,人们常问的第一个问题是“我需要多少个样本？” 该问题的答案由下列四个因素确定： 1. 数据类型离散数据和连续数据 2. 您想做什么描述整组的某个特征（平均值或比例）在特定的精度内（ _ 单位）比较组的特征（找出组平均值或比例之间的差异）以什么功效：希望检测到特定差异的概率 3. 您估计的标准偏差（或比例）为多大 4. 您希望的置信度为多高（通常为 95%）,假设检

10、验中样本容量的重要性,当样本容量太小不能检验出差异,假设检验中样本容量的重要性,当样本容量太大对平均值的漂移过于敏感资源浪费,样本容量的选取过程,第一步: 明确研究过程中的响应变量第二步: 选择合适的统计检验第三步: 决定可接受的风险和第四步: 定出漂移敏感度第五步: 建立或估计当前过程中的参数第六步: 决定合适的样本容量,抽样风险, 是 H0 成立, 但结果却否定它的风险. 1- 是 H0 的置信系数.,抽样风险, 是H0不成立, 但结果却肯定它的风险. (1-) 称为检验的功效, 它表示H0 不成立, 而结果也否定它的概率, 即当H0不成立时,作出正确结论的概率.,观察

11、值,1,2,漂移,抽样风险,抽样风险,H0 : 无差异 H1 : 有明显差异,漂移敏感性,实验之前需要预先指定反映明显差异的量 . 与标准差之比 /称为漂移敏感度(drift sensitivity ).,关于均值的比较的检验,单样本检验(1-Sample Tests) Stat Power and Sample Size 1-Sample Z Stat Power and Sample Size 1-Sample t 双样本检验(2-Sample Tests) Stat Power and Sample Size 2-Sample t,样本容量公式取决于您的目的,抽样目的,公式*Mini

12、tab 命令,估计平均值（例如、确定基准周期）,（其中 d = 精度： _ 单位）,估计比例（例如、确定缺陷基准百分比）,（其中 d = 精度： _ 单位）,精度 (d),精度是允许某个特征的估计值波动的范围。估计上下不超过两天的周期。估计上下不超过 3% 的缺陷百分比。使用符号 d 表示精度。传统的统计学称它为 “delta”、因此以d 表示。精度等于置信区间 (CI) 的一半。周期（单位为天）为 95% 时 CI = (48、 52) 意味着我们有 95% 的确信平均周期在 48 天至 52 天之间。 CI 的宽度 = 4 天。精度 = d = 2 天（= 估计值上下不超

13、过 2 天）。,精度 (d)（续）,决定您需要多大的精度。精度与样本容量的平方根成反比。,精度和样本容量,要提高精度、必须增加样本容量（但会增加成本）。对于需要多大的精度没有明确的答案；该答案取决于使用该估计值对业务产生多大的影响。每种情况都是独特的；不要效仿别人的决定。,估计平均值所需的样本容量,95% 的置信度* 意味着因子为 2,标准偏差的估计,您希望的精度,不重复抽样,重复抽样,目的：练习使用样本容量公式估计平均值。时间：3 分钟。要求：使用样本容量公式计算平均值，以便回答下列问题。 1. 假设您想估计呼入电话的平均通话时间 1 分钟。您需要多少样本？（历史数据显示

14、典型的标准偏差 = 3 分钟。） 2. 您需要对多少次呼入抽样、以获得 1/8 分钟的精度？,练习：估计平均值所需的样本容量,练习：答案,问题 1. 问题 2.,如何估计标准偏差,困难的选择：要估计样本容量，您需要知道标准偏差。您需对数据的变化量有一定了解，因为数据可变性加大，需要的样本容量也要相应增加。但是，如果您还没有进行抽样，如何知道偏差呢？,如何估计标准偏差（续）,估计标准偏差的选择查找现存的数据并计算 s。使用类似过程的控制图（针对个体的）。采集一个小的样本并计算 s。根据您对过程的认识和记得的类似数据猜一猜（大多数人不擅长这样做）。,估计比例所需的样本容量,95%

15、的置信度意味着因子为 2,猜 p 的值（样本大小随 P 变动较大、从 P=0.1 到 0.5，变化甚剧）,您希望的精度,使用精度调整样本容量,您可使用确定样本容量的公式，来确定是否需要花更多的资金收集更多的样本来得到更高的精度。在收集数据之前这样做可以帮助您决定多少样本可以符合您的项目和预算。 1. 确定您可以提供多少个样本 (n)。 2. 然后问：该样本提供多高的精度？即、精度的平均值在 d 单位之内还是精度的比例在 d% 之内,使用精度调整样本容量（续）,3. 该精度足够精确吗？ 4. 如果不够精确：为各种样本容量绘制一个精度和成本表，以确定在样本上每花一美元在精度上提高了多少

16、。然后选择一个样本容量，再根据所提高的精度或您需要的精度来证明这是正确的选择。,从有限的总体中进行抽样,样本容量公式假设样本容量 (n) 小于总体 (N)。如果 .05 您抽取的样本占总体的 5% 以上您可以使用“有限总体”公式调整样本容量：,使用样本容量公式,使用样本容量公式：在置信度为 95% 的情况下，根据给定的期望精度以及 S 或 P 的估计值，确定估计整组的某个特征（平均值或比例）所需的样本容量。在收集数据之前，确定各种样本容量其估计值的精度。确定估计值的精度与增加样本容量的成本之间的得失。在收集数据之后，确定估计值的精度。,状态：样本容量命令和公式,抽样目的,公式*/ Minitab 命令,

展开阅读全文