zCH8系统抽样第2节课件

资源描述

《zCH8系统抽样第2节课件》由会员分享，可在线阅读，更多相关《zCH8系统抽样第2节课件（71页珍藏版）》请在金锄头文库上搜索。

1、CH7小结小结n理论掌握：理论掌握：nCL的做法和特点的做法和特点/优缺点优缺点/实施理由实施理由n分群的原则分群的原则nCL的的deff因子因子n计算掌握：计算掌握：n群大小相等时的均值估计和比例估计推断群大小相等时的均值估计和比例估计推断n群大小不等时的估计（一般总值估计更有意义）群大小不等时的估计（一般总值估计更有意义）nSrs抽样，比率估计抽样，比率估计nPPS抽样，抽样，HH估计估计n理解：理解：nCL是单阶段抽样向多阶段抽样的过渡是单阶段抽样向多阶段抽样的过渡nCL与与st的关系的关系n群大小不等的整群抽样群大小不等的整群抽样n方法体系，各方法的特点和适用性方法体系，各方法的特点和

2、适用性n基本思路：改变抽样方法或改变估计方法基本思路：改变抽样方法或改变估计方法7/23/20241z-CH8系统抽样-第2节CH8 系统抽样系统抽样Sy：Systematic Sampling4-6课时课时7/23/20242z-CH8系统抽样-第2节sy在抽样方法体系中的地位在抽样方法体系中的地位nSy在实践中被广泛采用在实践中被广泛采用n理由：理由：n1、sy简便易行，甚至比简便易行，甚至比srs更容易操作更容易操作n2、在了解总体特征的前提下，有效地应用、在了解总体特征的前提下，有效地应用sy可以可以得到很高的精度得到很高的精度nSy可看作一种特殊的可看作一种特殊的cl，又可以看出是一

3、种特殊的，又可以看出是一种特殊的stn学习和应用学习和应用sy时有一些特殊问题需要注意：时有一些特殊问题需要注意：n1、对总体特征的了解非常重要，否则会影响、对总体特征的了解非常重要，否则会影响sy样样本的代表性本的代表性n2、sy方差估计较为复杂，一般很难得到抽样设计方差估计较为复杂，一般很难得到抽样设计意义下的理论方差的无偏估计意义下的理论方差的无偏估计7/23/20243z-CH8系统抽样-第2节什么是系统抽样什么是系统抽样n等距抽样是典型的等距抽样是典型的SynSy：将总体的：将总体的N个单元个单元按某种顺序排列按某种顺序排列，首先从总体，首先从总体中中srs地抽取第一个样本点地抽取第

4、一个样本点(即即随机起点随机起点)，然后按，然后按某种某种确定的规则确定的规则选取其他样本单元选取其他样本单元nSy的两个突出特点：的两个突出特点：n1、抽样之前要先将、抽样之前要先将N个总体单元排序个总体单元排序n2、第一个单元的抽取是随机的，其余、第一个单元的抽取是随机的，其余(n-1)个单元个单元的选取是按照某种确定的规则来取，不具有随机性的选取是按照某种确定的规则来取，不具有随机性n所以，随机起点一经确定，整个样本就确定了，这种所以，随机起点一经确定，整个样本就确定了，这种“牵一发而动全身牵一发而动全身”的整体性正是通常所谓的整体性正是通常所谓“系统系统”的特点，所以称为系统抽样的特点

5、，所以称为系统抽样7/23/20244z-CH8系统抽样-第2节Sy的优点的优点1、简便易行、简便易行nsy至少能达到至少能达到srs的效果，但比的效果，但比srs容易实施容易实施n主要表现在：主要表现在：l抽样框简单，甚至可以不需要抽样框抽样框简单，甚至可以不需要抽样框l非专业人士很容易操作非专业人士很容易操作2、样本单元在总体中的分布比较均匀，因而一般具有较好、样本单元在总体中的分布比较均匀，因而一般具有较好的代表性的代表性n特别是当总体有适合的辅助变量的信息可以利用时，可以特别是当总体有适合的辅助变量的信息可以利用时，可以采用有序系统抽样，有利于提高估计精度采用有序系统抽样，有利于提高估

6、计精度7/23/20245z-CH8系统抽样-第2节Sy的一些最直观的案例的一些最直观的案例n街道两旁树木病虫害的研究，从某棵树开始街道两旁树木病虫害的研究，从某棵树开始(起点起点)，每隔每隔20棵树抽一棵进行检测棵树抽一棵进行检测n生产企业为了检查产品的质量，每隔生产企业为了检查产品的质量，每隔2小时抽选若干产小时抽选若干产品进行质量检查品进行质量检查n有一叠发票，想要估计它的总金额以及某一类商品的有一叠发票，想要估计它的总金额以及某一类商品的发票在总发票中占的比例，如果发票多，全面计量比发票在总发票中占的比例，如果发票多，全面计量比较麻烦，可以采取每隔较麻烦，可以采取每隔10张抽张抽1张进

7、行观察的方法张进行观察的方法n农业上为估计农作物产量或病虫害危害情况，对一大农业上为估计农作物产量或病虫害危害情况，对一大片农田每隔一定距离片农田每隔一定距离(例如纵横各例如纵横各10米米)抽取一小块抽取一小块(例例如如1/4m2)进行实际测量或调查进行实际测量或调查n图书馆对图书借阅情况进行调查，在一堆按书名字母图书馆对图书借阅情况进行调查，在一堆按书名字母排列的图书目录卡片中，每隔一定厚度排列的图书目录卡片中，每隔一定厚度(例如例如2cm)或或一定张数抽取一张卡片一定张数抽取一张卡片n7/23/20246z-CH8系统抽样-第2节Sy的缺点的缺点 (应用应用sy应注意的问题应注意的问题)1

8、、sy的效果依赖于调查者对总体特征的了解的效果依赖于调查者对总体特征的了解n如果单元的排列存在周期性变化，而抽样者对此缺如果单元的排列存在周期性变化，而抽样者对此缺乏了解或缺乏处理的经验，抽出的样本的代表性乏了解或缺乏处理的经验，抽出的样本的代表性就可能很差就可能很差2、方差估计比较复杂、方差估计比较复杂n原因：一般原因：一般Sy的方差没有抽样设计意义下的无偏的方差没有抽样设计意义下的无偏估计量，在很多实践中都不是严格的概率抽样估计量，在很多实践中都不是严格的概率抽样伪随机伪随机7/23/20247z-CH8系统抽样-第2节CH8内容体系内容体系8.1 抽样方式抽样方式理论知识掌握的重点理论知

9、识掌握的重点 n介绍介绍sy的基本思想、的基本思想、sy样本抽选的基本方式、总体单样本抽选的基本方式、总体单元的排序、有序排列元的排序、有序排列(线性排列线性排列)下的下的syn拓展：拓展：sy与与cl和和st的比较的比较8.2 等概率等概率sy估计量及其方差估计量及其方差n估计量的定义及其性质估计量的定义及其性质，介绍估计量方差的几种表现，介绍估计量方差的几种表现形式，各表现形式中具体涉及到的方差不同形式，各表现形式中具体涉及到的方差不同8.3 估计量方差的样本估计估计量方差的样本估计n介绍介绍6种估计量方差的样本估计方法种估计量方差的样本估计方法8.4 进一步讨论的问题进一步讨论的问题n掌

10、握一个基本结论：对于掌握一个基本结论：对于周期性变化的趋势总体周期性变化的趋势总体如何如何确定抽样间隔确定抽样间隔7/23/20248z-CH8系统抽样-第2节CH8两个特点两个特点1、sy样本的抽选方法非常丰富样本的抽选方法非常丰富n要区分不同特征的总体，进行不同的要区分不同特征的总体，进行不同的sy抽样抽样2、方差估计的内容丰富、方差估计的内容丰富n方差估计的方法比较多方差估计的方法比较多7/23/20249z-CH8系统抽样-第2节8.1 抽样方式抽样方式lSy的样本抽选方式的样本抽选方式l基本方式基本方式l线性线性syl圆圈圆圈syl有序排列下的有序排列下的sy样本抽选方式样本抽选方式

11、l中心中心syl对称对称sylSethi的对称的对称sylSighn的对称的对称sy7/23/202410z-CH8系统抽样-第2节一、一、sy的基本思想的基本思想（P169）nSy的基本思想体现了实施的基本思想体现了实施sy的三个步骤：的三个步骤：n1、排序、排序n2、随机抽取起始单元，即确定随机起点、随机抽取起始单元，即确定随机起点n3、按某种确定的规则、按某种确定的规则/规律抽取其他样本单元规律抽取其他样本单元n引申出三个问题：引申出三个问题：n1、如何排序？、如何排序？n2、怎样确定起始单元？、怎样确定起始单元？n3、按怎样的规则抽取其他样本单元？、按怎样的规则抽取其他样本单元？n对

12、以上三个问题的不同回答给出不同的对以上三个问题的不同回答给出不同的sy方法方法7/23/202411z-CH8系统抽样-第2节二、二、sy的基本方式的基本方式（一）线性（一）线性sy（二）圆圈（二）圆圈sy7/23/202412z-CH8系统抽样-第2节学习学习Sy抽选方式要注意方法间的继起关系抽选方式要注意方法间的继起关系1、这种方法要解决什么问题？、这种方法要解决什么问题？2、基本做法、基本做法l如何排序如何排序l怎样抽取起始单元怎样抽取起始单元l按何种规则抽取其他样本单元按何种规则抽取其他样本单元3、这种方法存在什么问题？、这种方法存在什么问题？4、解决的思路、解决的思路新的抽选方法新

13、的抽选方法7/23/202413z-CH8系统抽样-第2节（一）线性（一）线性sy/等距等距sy/直线等距直线等距synN总体单元数，总体单元数，n样本单元数样本单元数1、前提：、前提：N=nk，(k为整数为整数)2、方法、方法n排序、编号排序、编号n 计算抽样间隔计算抽样间隔(sampling interval)k：k=N/n，(k为整数为整数)，按，按k将将N个单元划分为个单元划分为n段，每段包含段，每段包含k个单元个单元1N=nkk2k3kn n 随机抽取第一个样本单元：在随机抽取第一个样本单元：在1，k中确定随机数中确定随机数rrr+kr+2kr+(n-1)kn n 等间隔地抽取其他等

14、间隔地抽取其他(n-1)样本单元：样本单元：r+k，r+2k,r+(n-1)k问题：问题：等距等距Sy的随机性体现在哪儿？的随机性体现在哪儿？第一个单元的抽选第一个单元的抽选这样可能得到的样本有多少个？这样可能得到的样本有多少个？ k个，每个样本中含有个，每个样本中含有n个单元个单元各可能样本被抽中的概率均相同各可能样本被抽中的概率均相同N能被能被n整除时，整除时，等距抽样是严等距抽样是严格意义下的等格意义下的等概率抽样概率抽样7/23/202414z-CH8系统抽样-第2节线性线性sy(续续)3、存在的问题、存在的问题n如果如果N不能被不能被n整除，即整除，即Nnk，(k为整数为整数)

15、时，时，k一般一般取取N/n的整数部分的整数部分N/n，会造成什么后果呢？，会造成什么后果呢？n这样导致这样导致k个可能样本的单元数不同个可能样本的单元数不同 n个或个或n+1个个n后果：导致偏差，此时的估计量不是无偏估计量后果：导致偏差，此时的估计量不是无偏估计量7/23/202415z-CH8系统抽样-第2节举例说明：举例说明：nN=10，n=3，取，取k=3，则可能样本有，则可能样本有3个，分别为：个，分别为：Y1，Y4，Y7，Y10Y2，Y5，Y8Y3，Y6，Y9n其样本均值分别为：其样本均值分别为：n所有可能样本均值所有可能样本均值的数学期望为的数学期望为7/23/202416z-

16、CH8系统抽样-第2节4、改进的思路、改进的思路n为了使样本均值成为总体均值的无偏估计量，可采用为了使样本均值成为总体均值的无偏估计量，可采用两种思路：两种思路：l改变样本的抽选方法改变样本的抽选方法圆形圆形sy/循环等距循环等距sy 修正的线性等距修正的线性等距syl修正估计量的形式修正估计量的形式7/23/202417z-CH8系统抽样-第2节（二）圆圈（二）圆圈sy/循环等距循环等距sy n1952年，拉希里提出的年，拉希里提出的1、目的：解决因、目的：解决因N不能为不能为n整除而导致的样本均值非总体均值的整除而导致的样本均值非总体均值的无偏估计的问题无偏估计的问题2、做法：、做法：l

17、排序：将排序：将N个单元排成首尾相接的圆个单元排成首尾相接的圆l取取k=N/n或四舍五入或四舍五入l在在1，N中，确定一个随机起点中，确定一个随机起点rl沿着圆圈走向，每沿着圆圈走向，每k个单元取一个，直到抽足个单元取一个，直到抽足n个为止个为止n这样获得的样本这样获得的样本l其包含的单元数其包含的单元数均为均为nl样本可能数目样本可能数目有有N个个 N个可能样本被抽中的概率相等个可能样本被抽中的概率相等l估计量无偏估计量无偏3、缺陷：比较麻烦、缺陷：比较麻烦 7/23/202418z-CH8系统抽样-第2节举例：举例：圆圈圆圈sy的所有可能样本及样本均值的期望的所有可能样本及样本均值的期

18、望Y1，Y4，Y7Y2，Y5，Y8Y3，Y6，Y9Y4，Y7，Y10Y5，Y8 ，Y1Y6，Y9 ，Y2Y7，Y10，Y3Y8 ，Y1，Y4Y9，Y2，Y5Y10，Y3，Y67/23/202419z-CH8系统抽样-第2节实践中实践中n实践中，实践中，n通常比较大通常比较大(n50)，N则更大，所以，多则更大，所以，多一个少一个无关紧要，因此通常不考虑一个少一个无关紧要，因此通常不考虑N/n是不是整是不是整数的问题。为了处理方便，一律假定数的问题。为了处理方便，一律假定N能被能被n整除整除n实践中也常用一种简单的处理办法，就是，把不能整实践中也常用一种简单的处理办法，就是，把不能整除多余出来的

19、部分直接除多余出来的部分直接“扔掉扔掉”，这会使总体规模略，这会使总体规模略微缩减，但通常对估计效果的影响不大微缩减，但通常对估计效果的影响不大n所以，从这个角度也可以理解：所以，从这个角度也可以理解：n实践中的实践中的sy通常不是典型意义下的概率抽样，它有主观通常不是典型意义下的概率抽样，它有主观性性7/23/202420z-CH8系统抽样-第2节前面知识归纳前面知识归纳l什么是什么是sy？sy的三个核心点的三个核心点/步骤是什么？步骤是什么？n排序排序n确定起始单元确定起始单元n按某种规则抽取其他样本单元按某种规则抽取其他样本单元lSy的优点的优点n简便易行，表现在：抽样框简单，甚至不需要

20、抽样框；非简便易行，表现在：抽样框简单，甚至不需要抽样框；非专业人士极易操作，甚至比专业人士极易操作，甚至比srs还容易操作还容易操作n样本单元在总体中的分布比较均匀，样本单元在总体中的分布比较均匀，sy样本一般都具有较样本一般都具有较好的代表性，好的代表性，尤其尤其是在了解总体特征、有合适的辅助变量是在了解总体特征、有合适的辅助变量的信息可以利用时，采用有序的信息可以利用时，采用有序sy，可得到较高的估计精度，可得到较高的估计精度nSy的两个特殊问题的两个特殊问题/缺点缺点nsy的效果依赖于调查者对总体特征的了解的效果依赖于调查者对总体特征的了解n方差估计比较复杂方差估计比较复杂(8.3估计

21、量方差的样本估计估计量方差的样本估计)nSy样本抽选的基本方式样本抽选的基本方式n直线直线sy和圆圈和圆圈sySy样本样本抽选方式抽选方式7/23/202421z-CH8系统抽样-第2节三、总体单元的排序三、总体单元的排序回答回答“如何排序如何排序”的问题的问题n总体各单元的排列顺序，与总体各单元的排列顺序，与sy的结果有着密切的关系的结果有着密切的关系n几种常见的排序情况：几种常见的排序情况：1、总体单元随机排序、总体单元随机排序按无关标志排序按无关标志排序/无序无序syn即各单元的排序与所研究的目标量无关，比如即各单元的排序与所研究的目标量无关，比如n城市住户调查中，按住户的登记顺序或姓

22、氏笔画或门牌号城市住户调查中，按住户的登记顺序或姓氏笔画或门牌号码等排序码等排序n农产量调查中，总体单元按地理区域排序农产量调查中，总体单元按地理区域排序n对学生的调查按学号排序等对学生的调查按学号排序等n注意两点：注意两点：n所谓所谓“无关无关”：没有必然联系没有必然联系，即没有直接关系或关系很，即没有直接关系或关系很小小n采用无关标志排序的总体实际上是一个采用无关标志排序的总体实际上是一个随机总体随机总体，这时的，这时的sy等同于等同于srsn确定估计量形式和计算抽样误差时都可视同确定估计量形式和计算抽样误差时都可视同srs7/23/202422z-CH8系统抽样-第2节2、总体单元的排序

23、与其目标量大小有关、总体单元的排序与其目标量大小有关按有关标志排序按有关标志排序/有序有序Syn即排序标志与目标量有着密切的关系。比如：即排序标志与目标量有着密切的关系。比如：n农产量调查中，选择历史产量或历史产量的平均数为排序农产量调查中，选择历史产量或历史产量的平均数为排序标志标志n优点优点：n可充分利用总体的有关信息，使抽取的样本更具代表性，可充分利用总体的有关信息，使抽取的样本更具代表性，减少抽样误差，提高抽样效率减少抽样误差，提高抽样效率n同时，可行性同时，可行性/可操作性也很强，因为我国现行的统计制可操作性也很强，因为我国现行的统计制度可以提供各种有关标志排序的抽样框度可以提供各

24、种有关标志排序的抽样框n两种主要类型：两种主要类型：n(1)周期性排序周期性排序n(2)线性趋势排序线性趋势排序7/23/202423z-CH8系统抽样-第2节(1)周期性排序周期性排序呈周期性变化的总体的呈周期性变化的总体的syn即总体各单元的排序与目标量值有某种周期性的关系即总体各单元的排序与目标量值有某种周期性的关系n此时，总体呈周期性波动态势，比如正余弦曲线的态势此时，总体呈周期性波动态势，比如正余弦曲线的态势n如果不了解这种波动规律，而恰好选择的抽样间隔即周如果不了解这种波动规律，而恰好选择的抽样间隔即周期的长度，就会出现样本各单元的标志值都是各周期同期的长度，就会出现样本各单元的

25、标志值都是各周期同一相位上的数字，这个数字相同或比较接近一相位上的数字，这个数字相同或比较接近n比如，在对某商场日销售额进行比如，在对某商场日销售额进行sy估计时，如果抽样估计时，如果抽样间隔设定为间隔设定为7天，就会出现样本日销售额正好都是某天，就会出现样本日销售额正好都是某一天的情况一天的情况n后果：后果：n此时的此时的sy样本对总体的代表性很差样本对总体的代表性很差n处理方式处理方式：n抽样间隔选择半周期或半周期的奇数倍抽样间隔选择半周期或半周期的奇数倍n一些统计学家甚至认为：当怀疑某种现象的变动有周一些统计学家甚至认为：当怀疑某种现象的变动有周期性的趋势时，不宜采用线性期性的趋势时，不

26、宜采用线性sy的方式的方式7/23/202424z-CH8系统抽样-第2节(2)线性趋势排序线性趋势排序呈线性趋势变化的总体的呈线性趋势变化的总体的syn当总体各单元的排序按某相关标志排序后呈现一种线性当总体各单元的排序按某相关标志排序后呈现一种线性趋势时，采用线性趋势时，采用线性sy，已经证明：，已经证明：n其抽样估计精度虽优于其抽样估计精度虽优于srs，但不如，但不如stn原因：原因：n对线性趋势总体，采用线性对线性趋势总体，采用线性sy，可能会使所抽样本产，可能会使所抽样本产生一种生一种“趋向性趋向性”偏差偏差n处理方法：处理方法：n在总体呈现这种在总体呈现这种“线性趋势线性趋势”或或

27、“单调上升或单调下单调上升或单调下降趋势降趋势”时，采用中心位置时，采用中心位置sy或对称或对称sy，可以大大改，可以大大改善善sy的估计精度的估计精度1k2knk7/23/202425z-CH8系统抽样-第2节4、总体单元按某种、总体单元按某种“负相关负相关”的趋势排序的趋势排序使线性使线性sy估计精度最高的排序方式估计精度最高的排序方式n具体有两种情况：具体有两种情况：n一种是总体各单位按某相关标志对奇数层顺排列而偶数层一种是总体各单位按某相关标志对奇数层顺排列而偶数层反排列反排列n一种是总体中前一半单位顺排列而后一半单位反排列一种是总体中前一半单位顺排列而后一半单位反排列n实际上，这种

28、排列方式，会使得线性实际上，这种排列方式，会使得线性sy的估计精度的估计精度最高最高n后面将证明：对于这种负相关趋势排列总体采用线后面将证明：对于这种负相关趋势排列总体采用线性性sy的效果与对线性趋势总体采用对称的效果与对线性趋势总体采用对称sy的效果完的效果完全相同全相同7/23/202426z-CH8系统抽样-第2节负相关排序举例负相关排序举例从小到大排列时从小到大排列时sy的效果的效果n设某总体有设某总体有N=32个单元，希望产生个单元，希望产生n=4的的sy样本，样本，k=N/n=8n第一种排列：总体单元的排列呈稳定上升的趋势第一种排列：总体单元的排列呈稳定上升的趋势线性排列线性排列

29、层层/间隔间隔sy样本编号样本编号总平均总平均=17.343751234567811334567788111214161617182020242425272728303134343638平均平均1313.7515.2516.2518.519.2520.75227/23/202427z-CH8系统抽样-第2节负相关排序举例负相关排序举例奇数层顺排列而偶数层反排列奇数层顺排列而偶数层反排列n设某总体有设某总体有N=32个单元，希望产生个单元，希望产生n=4的的sy样本，样本，k=8n第二种排列：奇数层顺排列而偶数层反排列第二种排列：奇数层顺排列而偶数层反排列层层sy样本编号样本编号总平均总平

30、均=17.343751234567811334567161614121188717182020242425273836343431302827平均平均1817.7517.7517.2517.516.7516.75177/23/202428z-CH8系统抽样-第2节负相关排序举例负相关排序举例前一半顺排列而后一半反排列前一半顺排列而后一半反排列n设某总体有设某总体有N=32个单元，前一半顺排列而后一半反排列个单元，前一半顺排列而后一半反排列n希望产生一个希望产生一个n=4的的sy样本样本层层sy样本编号样本编号总平均总平均=17.3437512345678113345677881112141

31、61627252424202018173836343431302827平均平均18.2517.517.251816.7517.251716.757/23/202429z-CH8系统抽样-第2节结论结论l直观的结论：直观的结论：l负相关排序后进行线性负相关排序后进行线性sy的效果要明显优于对线性趋势的效果要明显优于对线性趋势总体直接进行线性总体直接进行线性sy的效果的效果l后面会进一步说明：后面会进一步说明：l对线性趋势总体直接实施线性对线性趋势总体直接实施线性sy，效果优于，效果优于srs但不如但不如stl区分奇数偶数层的负相关排序方式的效果等同于区分奇数偶数层的负相关排序方式的效果等同于Se

32、thi的的对称对称sy，效果要好于，效果要好于stl区分前后部分的负相关排序方式的效果等同于区分前后部分的负相关排序方式的效果等同于Singn的对的对称称sy，效果优于，效果优于st，与，与Sethi的效果相近的效果相近n负相关排序的举例给我们启示：负相关排序的举例给我们启示：nSy的精度不仅取决于总体各单元的差异的精度不仅取决于总体各单元的差异(S2)，更取决于，更取决于总体的性质以及总体单元的排序方式。不同的单元排列顺总体的性质以及总体单元的排序方式。不同的单元排列顺序会产生不同的估计量的方差序会产生不同的估计量的方差n社会实践中，变量取值呈线性趋势波动的现象尤其多社会实践中，变量取值呈线

33、性趋势波动的现象尤其多n所以，专门对线性趋势总体下的所以，专门对线性趋势总体下的sy或称为有序排列下的或称为有序排列下的sy进进行研究非常重要行研究非常重要7/23/202430z-CH8系统抽样-第2节四、有序排列下的四、有序排列下的sy （线性趋势总体下的（线性趋势总体下的sy）l研究的问题：研究的问题：l对线性趋势总体如何改进对线性趋势总体如何改进sy的效果的效果7/23/202431z-CH8系统抽样-第2节对线性趋势总体的对线性趋势总体的sy法的改进思路法的改进思路n改进的思路：改进的思路：n改进抽样方法改进抽样方法n（二）中心位置（二）中心位置sy法法n（三）对称（三）对称sy法法

34、lSethi的对称的对称sylSingn的对称的对称syn改进估计方法改进估计方法n（一）首尾校正法（一）首尾校正法nYates法法nBellhouse&Rao法法7/23/202432z-CH8系统抽样-第2节（一）首尾校正法（一）首尾校正法n是通过是通过改进估计方法改进估计方法，以达到校正对线性趋，以达到校正对线性趋势总体直接进行线性势总体直接进行线性sy的估计效果的目的的估计效果的目的n做法：做法：n对首尾两个样本单元赋予不同于其他单元的权数，对首尾两个样本单元赋予不同于其他单元的权数，从而降低线性趋势总体从而降低线性趋势总体sy抽样估计的偏倚抽样估计的偏倚nYates法法(1948)主

35、要用于主要用于N能被能被n整除的情形整除的情形nBellhouse & Rao法法(1975)应用于应用于N不能被不能被n整除的情形整除的情形7/23/202436z-CH8系统抽样-第2节Yates首尾校正法首尾校正法n前提：前提：nN=nk，(k为整数为整数)n线性排序，线性线性排序，线性syn假设起始单元编号为假设起始单元编号为r，则，则n首样本单元的权数首样本单元的权数n尾样本单元的权数尾样本单元的权数n其他其他n-2个样本单元的个样本单元的权数权数n均值估计量为均值估计量为7/23/202437z-CH8系统抽样-第2节Bellhouse & Rao首尾校正法首尾校正法nNnk，(k

36、为整数为整数)n用圆圈用圆圈sy保证保证n为常数为常数n做法：做法：n按总体单元按总体单元原有顺序原有顺序确定首确定首尾单元，对其赋予不同于其尾单元，对其赋予不同于其他单元的权数他单元的权数n如果起始单元编号如果起始单元编号r比较小，比较小，满足满足r+(n-1)kN，则，则n首样本单元的权数首样本单元的权数n尾样本单元的权数尾样本单元的权数n其他其他n-2个单元的权数个单元的权数n均值估计量为均值估计量为7/23/202438z-CH8系统抽样-第2节Bellhouse & Rao法法(续续)n如果起始单元编号如果起始单元编号r比较比较大，导致大，导致r+(n-1)kN，则有样本单元越过单，

37、则有样本单元越过单元元N抽取抽取n假设越过假设越过N号单元抽取的号单元抽取的样本单元数为样本单元数为n2个，相个，相应的权数设置为应的权数设置为n首样本单元的权数首样本单元的权数n尾样本单元的权数尾样本单元的权数n其他其他n-2个样本单元个样本单元的权数的权数n均值估计量为均值估计量为7/23/202439z-CH8系统抽样-第2节（二）中心（二）中心sy法法n对线性趋势总体，起始单元的位置会直接影响整个样本的代对线性趋势总体，起始单元的位置会直接影响整个样本的代表性表性n为提高抽样效率，为提高抽样效率，Madow(1953)建议用中心建议用中心sy法法n初始单元不是随机抽选，而是直接取第一段

38、初始单元不是随机抽选，而是直接取第一段k个单元中处个单元中处于于中间位置中间位置的单元的单元n而后依次取各组中心位置所在的单元入样而后依次取各组中心位置所在的单元入样n这样取到的样本称为中心系统样本这样取到的样本称为中心系统样本n评价：评价：n对线性趋势总体，中心对线性趋势总体，中心sy优于线性优于线性sy，确实可提高精度，确实可提高精度n但是，这样的但是，这样的sy样本失去了随机性样本失去了随机性n因为对于按一定顺序排列的总体，中心系统样本是确因为对于按一定顺序排列的总体，中心系统样本是确定的、唯一的，彻底失去了随机性定的、唯一的，彻底失去了随机性1k2knk7/23/202440z-CH8

39、系统抽样-第2节（三）对称（三）对称sy法法l包括：包括：lSethi对称对称sy：平衡：平衡sy法法/分组对称分组对称sy法法lSingn对称对称sy：修正：修正sy法法/总体对称总体对称sy法法l两种方法的做法不同，效果也有差异两种方法的做法不同，效果也有差异l对线性趋势总体，对称对线性趋势总体，对称sy有助于提高有助于提高sy的代表性，其的代表性，其效果优于线性效果优于线性sy和圆圈和圆圈sy7/23/202441z-CH8系统抽样-第2节1、Sethi对称对称sy法法平衡平衡sy法法/分组对称分组对称sy法法nSethi(1965)提出的，是组内对称提出的，是组内对称syn讨论前提：

40、讨论前提：nN=nk，(k为整数为整数)n分分n为偶数和为偶数和n为奇数两种情况讨论：为奇数两种情况讨论：nn为偶数，将总体分为为偶数，将总体分为n/2段，每段含段，每段含2k个单元，在个单元，在各段内随机选择与两端等距的两个单元为样本单元各段内随机选择与两端等距的两个单元为样本单元nn为奇数，按以上操作后，再增加靠近终端的一个单为奇数，按以上操作后，再增加靠近终端的一个单元元2k4k6k8k1nk2k4k6k8k1(n-1)knk7/23/202442z-CH8系统抽样-第2节2、Singn对称对称sy法法修正修正sy法法/总体对称总体对称sy法法nSingn(1968)提出的，是总体对称

41、系统抽样提出的，是总体对称系统抽样n讨论前提：讨论前提：nN=nk，(k为整数为整数)n分分n为偶数和为偶数和n为奇数两种情况为奇数两种情况nn为偶数，每为偶数，每2个单元都与总体两端等距个单元都与总体两端等距nn为奇数，每为奇数，每2个单元都与总体两端等距，再增个单元都与总体两端等距，再增加靠近中间的一个单元加靠近中间的一个单元1k2knk1knk7/23/202443z-CH8系统抽样-第2节总结：总结：N=nk（k为整数）为整数）Nnk（k为整数）为整数）无明显的线性趋势无明显的线性趋势有明显的线性趋势有明显的线性趋势线性线性Sy，简单估计，简单估计中心中心Sy，简单估计，简单估计线性线

42、性Sy，Yates估计估计大样本大样本小样本小样本同同N=nk（k为整数）处理为整数）处理圆圈圆圈Sy，简单估计，简单估计圆圈圆圈Sy，Bellhouse&Rao估计估计无明显的线性趋势无明显的线性趋势有明显的线性趋势有明显的线性趋势7/23/202444z-CH8系统抽样-第2节8.1小结小结nSy的含义、优缺点的含义、优缺点nSy样本抽选的基本方式样本抽选的基本方式nSy总体单元的排序方法总体单元的排序方法n线性趋势总体线性趋势总体sy的改进：的改进：n首尾校正法首尾校正法n中心中心sy法法n对称对称sy法法n思考：思考：sy与与cl和和st的关系的关系7/23/202445z-CH8系统

43、抽样-第2节拓展拓展Sy、CL、st的关系的关系一、相似或有联系之处一、相似或有联系之处n1、基本做法上有些相似的地方，比如都需要首先、基本做法上有些相似的地方，比如都需要首先对总体进行处理，对总体进行处理，sy需要先排序，需要先排序，cl需要先分群，需要先分群，st需要先分层。这些排序、分群、分层都要依据某需要先分层。这些排序、分群、分层都要依据某一辅助变量一辅助变量n2、Sy可以看作将总体分可以看作将总体分k群，从中随机抽取群，从中随机抽取1群的群的特殊的特殊的cl；也可看作将总体分；也可看作将总体分n层，每层的同一个层，每层的同一个位置上取一个样本单元的特殊的位置上取一个样本单元的特殊的

44、stn3、三者都有组织实施便利的优点、三者都有组织实施便利的优点7/23/202446z-CH8系统抽样-第2节Sy、CL、st的关系的关系(续续) 二、有差异之处二、有差异之处1、排序原则、分群原则、分层原则上有差异，从而辅助变、排序原则、分群原则、分层原则上有差异，从而辅助变量的选取也有差异。相比较而言，量的选取也有差异。相比较而言，sy排序标志选择起排序标志选择起来比较灵活，而来比较灵活，而cl、st辅助变量的选择就需慎重辅助变量的选择就需慎重2、实际应用的时候，三种方法看重的优势不同、实际应用的时候，三种方法看重的优势不同nSy主要看重其简单易行、通常样本代表性也比较高主要看重其简单易

45、行、通常样本代表性也比较高(至至少能达到少能达到srs的效果的效果)的优势的优势ncl主要看重其抽样框编制简单，组织实施便利的优势主要看重其抽样框编制简单，组织实施便利的优势nst主要看重其能有效提高估计精度的优势，便于子总体主要看重其能有效提高估计精度的优势，便于子总体的估计等的估计等n从精度上来说，从精度上来说，st、sy一般都要优于一般都要优于srs，但，但cl往往比往往比srs差差7/23/202447z-CH8系统抽样-第2节Sy、CL、st的关系的关系(续续)三、特殊的效果三、特殊的效果n1、对一些特殊结构的群体，如性别比例、职称结构、职务结构、对一些特殊结构的群体，如性别比例、职

46、称结构、职务结构、年龄结构等问题，以户或单位为抽样单元进行年龄结构等问题，以户或单位为抽样单元进行cl效果更好，在这些效果更好，在这些问题上，户或单位对总体比个人代表性更高问题上，户或单位对总体比个人代表性更高n2、St应用于总体单元标志值离散度较大的情形更有效应用于总体单元标志值离散度较大的情形更有效n3、Sy更多地应用于非专业人士组织的调查更多地应用于非专业人士组织的调查四、在需要避免的问题上也有差异四、在需要避免的问题上也有差异n1、Sy只有只有N能被能被n整除时，采用直线等距整除时，采用直线等距sy获得的才是严格的等概获得的才是严格的等概率率sy，这在现实中很难做到，所以，这在现实中很

47、难做到，所以，sy的方差估计比较复杂，没有的方差估计比较复杂，没有抽样设计意义下的方差的无偏估计抽样设计意义下的方差的无偏估计n2、另外，、另外，Sy更需要多关注总体的特征，比如对于线性趋势总体，更需要多关注总体的特征，比如对于线性趋势总体，不能简单的用直线等距抽样、简单估计，更应考虑中心位置不能简单的用直线等距抽样、简单估计，更应考虑中心位置sy或对或对称称sy，或者考虑首尾校正估计法；对周期性波动总体，要尽量掌握，或者考虑首尾校正估计法；对周期性波动总体，要尽量掌握周期的规律性，避免选择的抽样间距与周期的长度或周期的偶数倍周期的规律性，避免选择的抽样间距与周期的长度或周期的偶数倍相吻合，应

48、尽量选择半周期或半周期的奇数倍为抽样间隔。因此，相吻合，应尽量选择半周期或半周期的奇数倍为抽样间隔。因此，sy抽样方法体系更为丰富，除了一般的抽选方法外，还针对特征不抽样方法体系更为丰富，除了一般的抽选方法外，还针对特征不同的总体有不同的同的总体有不同的sy样本抽选方法样本抽选方法n8.1结束结束7/23/202448z-CH8系统抽样-第2节8.2 等概率等概率sy：估计量及其性质：估计量及其性质l本节讨论的是最简单的本节讨论的是最简单的Sy：lN=nk , (k为整数为整数)l实施线性实施线性syl在此前提下，在此前提下，Sy是一种严格意义下的概率抽样，是一种严格意义下的概率抽样，而且是等

49、概率抽样而且是等概率抽样7/23/202449z-CH8系统抽样-第2节8.2的内容体系的内容体系n一、估计量一、估计量n二、估计量的方差二、估计量的方差n估计量方差的不同表示形式估计量方差的不同表示形式n理论公式理论公式n把握估计量方差的理论公式把握估计量方差的理论公式n三种具体公式三种具体公式7/23/202450z-CH8系统抽样-第2节符号说明符号说明n总体有总体有N=nk个单元，按线性个单元，按线性sy法抽取法抽取n个单元形成样本，个单元形成样本，共有共有k个可能样本（每行是一个可能样本）个可能样本（每行是一个可能样本） jr 12jn1Y11Y12Y1jY1n2Y21Y21Y2jY

50、2nrYr1Yr2YrjYrnkYk1Yk2YkjYkn7/23/202451z-CH8系统抽样-第2节方差与相关系数方差与相关系数n总体方差总体方差S2nSy样本样本(群群)内方差内方差Swsy2nSy样本样本(群群)内相关系数内相关系数7/23/202452z-CH8系统抽样-第2节方差与相关系数方差与相关系数(续续)n同一同一Sy样本内对层均值离差的相关系数样本内对层均值离差的相关系数n层内方差层内方差Swst2n上表中每列是一个层上表中每列是一个层7/23/202453z-CH8系统抽样-第2节一、估计量一、估计量n假设起始样本单元为假设起始样本单元为r，即选中，即选中了第了第r个可能

51、样本（表中第个可能样本（表中第r行）行）n则系统样本的样本平均数则系统样本的样本平均数 (即表中的行均值即表中的行均值)n取取Sy样本平均数为总体均值的估样本平均数为总体均值的估计量计量7/23/202454z-CH8系统抽样-第2节估计量的无偏性估计量的无偏性n当当N=nk，(k为整数为整数)时，时，是无偏估计量是无偏估计量n当当Nnk，(k为整数为整数)时，时，是有偏估计量是有偏估计量n当当N和和n都比较大时，其偏倚不会太大，可忽略不计都比较大时，其偏倚不会太大，可忽略不计n如果采用圆圈如果采用圆圈sy，估计量是无偏的，估计量是无偏的n还可以修正估计量形式使其达到无偏还可以修正估计量形

52、式使其达到无偏7/23/202455z-CH8系统抽样-第2节二、估计量的方差二、估计量的方差n讨论本问题的目的不在于进行讨论本问题的目的不在于进行Sy方差的计算，而方差的计算，而在于讨论在于讨论Sy与与srs、str相比的效果相比的效果n讨论的前提：讨论的前提：nN=nk，(k为整数为整数)n实施线性实施线性syn以以Sy样本平均数作为总体均值的无偏估计量样本平均数作为总体均值的无偏估计量7/23/202456z-CH8系统抽样-第2节方差的理论公式方差的理论公式n这是方差的定义，是对所有可能样本的均值对总体均值的离差平这是方差的定义，是对所有可能样本的均值对总体均值的离差平方取平均方取平均

53、n注：这是方差的理论公式，不能用它计算估计量的方差。理由：注：这是方差的理论公式，不能用它计算估计量的方差。理由：l实际抽样只是抽到了实际抽样只是抽到了k个可能样本中的一个个可能样本中的一个l总体均值未知总体均值未知n理论公式的意义：理论公式的意义：n在已知总体背景的前提下，借助理论公式可以计算出在已知总体背景的前提下，借助理论公式可以计算出sy的抽的抽样误差样误差n由理论公式还可导出三种不同的方差表示形式，由此可对由理论公式还可导出三种不同的方差表示形式，由此可对Sy的效果进行分析说明的效果进行分析说明7/23/202457z-CH8系统抽样-第2节方差表示形式方差表示形式1用样本用样本(群

54、群)内方差内方差Swsy2表示的形式表示的形式n直观上理解：总体方差直观上理解：总体方差-样本内方差样本内方差=样本间方差样本间方差n这正是这正是Sy估计量方差理论上的含义估计量方差理论上的含义n此公式的导出与总离差平方和的分解密切相关此公式的导出与总离差平方和的分解密切相关7/23/202458z-CH8系统抽样-第2节方差表示形式方差表示形式1的推导的推导移项移项变形变形7/23/202459z-CH8系统抽样-第2节用方差表示形式用方差表示形式1的效果分析的效果分析l当当Swsy2 S2时，时，Sy优于优于srsl当当Swsy2 00，1 1DeffDeffn n，Sy不如不如srsl当

55、当=0=0，Deff=1Deff=1，Sy与与srs等效等效l当当-1/(n-1)0 0，0 0DeffDeff1 1，Sy优于优于srsnSy样本内单元间有较小的负相关，样本内单元间有较小的负相关，Sy效果较好效果较好7/23/202462z-CH8系统抽样-第2节方差表示形式方差表示形式3用层内方差用层内方差Swst2和同一和同一Sy样本内对层均值离样本内对层均值离差的相关系数差的相关系数wst表示的形式表示的形式n将将Sy看作特殊的看作特殊的st，总体，总体N个单元分为个单元分为n层，每层包含层，每层包含k个个单元，在每层的固定位置上抽单元，在每层的固定位置上抽1个单元个单元n特殊点的讨

56、论：特殊点的讨论：l当当0wst1 1，1 1DeffDeffn n，Sy不如不如strl当当wst=0=0，Deff=1Deff=1，Sy与与str等效等效l当当-1/(n-1)wst0 0，0 0DeffDeff00，此时，此时，sysy精度低于精度低于strstr层层号号等距样本编号等距样本编号层均值层均值12345678113345673.75788111214161611.5171820202424252721.875272830313434363832.255255616574778388555均值均值1313.7515.2516.2518.519.2520.752217.3437

57、57/23/202466z-CH8系统抽样-第2节层层号号等距样本编号等距样本编号层均值层均值12345678113345673.75788111214161611.5171820202424252721.875272830313434363832.255255616574778388555均值均值1313.7515.2516.2518.519.2520.752217.343757/23/202467z-CH8系统抽样-第2节补例补例2n还是补例还是补例1的数据，将第的数据，将第2层和第层和第4层的观测值逆序排列层的观测值逆序排列n8个可能样本均值的离散度明显低于补例个可能样本均值的离散度明显

58、低于补例1，sy的效果肯定优于前的效果肯定优于前者者n各等距样本内数据与层均值的离差有正有负，而且各等距样本内数据与层均值的离差有正有负，而且6个离差中大约个离差中大约有有4个为负，基本可以确定离差乘积和为负，所以，个为负，基本可以确定离差乘积和为负，所以， wstwst00 ，此时，此时，sy优于优于str层层号号等距样本编号等距样本编号层均值层均值12345678113345673.75161614121188711.5171820202424252721.875383634343130282732.257271716970676768555均值均值1817.7517.7517.2517.

59、516.7516.751717.34375Sethi的的对称对称sy7/23/202468z-CH8系统抽样-第2节层层号号等距样本编号等距样本编号层均值层均值12345678113345673.75788111214161611.5171820202424252721.875272830313434363832.255255616574778388555均值均值1313.7515.2516.2518.519.2520.752217.343759.4527/23/202469z-CH8系统抽样-第2节补例的说明补例的说明n这两个例子说明了总体单元排序对于这两个例子说明了总体单元排序对于Sy抽样

60、结果的影抽样结果的影响响n这是一个近似线性趋势总体这是一个近似线性趋势总体n补例补例1是按从小到大的顺序排列是按从小到大的顺序排列n补例补例2实际上是实际上是Sethi的对称的对称Syn对线性趋势总体，这种方法可有效地改进对线性趋势总体，这种方法可有效地改进sy样本对总体的代表性样本对总体的代表性n结论：相对于结论：相对于str和和srs来说，来说，sy的效率在很大程度上的效率在很大程度上取决于总体性质。即使是相同的总体数据，对于不同取决于总体性质。即使是相同的总体数据，对于不同的单元排列顺序，就会有不同的样本的单元排列顺序，就会有不同的样本(群群)内方差或相内方差或相关系数，从而关系数，从而

61、sy估计量的方差就会不同。因此，要有估计量的方差就会不同。因此，要有效地应用效地应用sy，必须对总体的性质有所了解，必须对总体的性质有所了解7/23/202470z-CH8系统抽样-第2节作业作业n思考：思考：P179 8.1、8.3、8.4、8.5n作业：作业：P214 8.2n补充题：补充题：n假设某总体，相应标志值排列顺序为假设某总体，相应标志值排列顺序为1，2，3，4，5，6，7，8，9，10，11，12，13，14，15.n(1)考虑考虑n=3的线性的线性sy，计算，计算sy的实际方差，与样的实际方差，与样本量相同的本量相同的srs进行比较进行比较n(2)若要求抽样间隔若要求抽样间隔k=4，样本均值是否是总体均，样本均值是否是总体均值的无偏估计？它在何时有偏？何时无偏？值的无偏估计？它在何时有偏？何时无偏？8.2结束结束7/23/202471z-CH8系统抽样-第2节

展开阅读全文

zCH8系统抽样第2节课件

最新文档