随机抽样方法的误差分析与控制

资源描述

《随机抽样方法的误差分析与控制》由会员分享，可在线阅读，更多相关《随机抽样方法的误差分析与控制（9页珍藏版）》请在金锄头文库上搜索。

1、. . . 随机抽样方法的误差分析与控制作者：航指导老师：屈俊【摘要】：本篇主要研究的问题有两个，一是关于什么是随机抽样误差，二是怎么控制该误差。随机抽样误差由于其影响因素众多而且很多都不可控制，因此产生误差是不可避免的。但是因为调查的科学性和准确性，因此我们必须找出方法来使这种误差减少到可控围的最小。本文首先交代了随机抽查的定义，然后说明了什么是随机抽样误差，接着对随机抽样误差进行分析后，我们给出了精确度、准确度，信度和效度的概念，这是判断误差的前提，有了前提我们才能知道测量数据的可靠性，不然调查数据误差分析就没有基础，也是误差控制的充要条件。在这些都做完后我们给出了控制误差的三种方法，

2、并给出了比较，最后得到最优的方法：回归估计。【关键字】：随机抽样误差随机抽样误差控制最优调查方法选择一、什么是随机抽样调查抽样调查是一种常用的非全面调查方法。它通过抽取一部分单位进行观察，来了解全部单位的某些指标。非全面调查是要从全部单位中选取部分进行调查，以说明全体。根据选择的办法不同，可分为有意识抽选和随机抽选两种。本文所说的抽样调查是指随机抽选的调查，它保证在抽选时每个单位都有同等(或一定的)被抽到的机会。抽样调查最根本的特点就是最后确定哪些单位被选中，完全遵循随机原则，丝毫不夹杂调查者的主观看法。随机抽样调查所坚持的随机抽样原则，并不排除充分利用对调查对象所了解到的知识。例如，抽

3、样调查中学生发育情况时，可以先将初中和高中的学生分成几个不同的组，然后分别从每组中按随机原则抽选要调查的年纪，而不是把明明能够区别开的单位混在一起来抽选。但是在每个组，一定要严格遵循随机原则，而不能按主观判断选择自己认为有代表性的单位。二、随机抽样误差的定义由上面的讨论可以知道假如从同一族群总体中抽出样本，并由样本来估计总体参数时，则会发现每一估计值和总体参数之间都有一定差异，且差异因样本不同而不同。此种误差叫做统计误差，如图1所示。误差有二个来源，即抽样误差和非抽样误差。误差的大小导致精确度和准确度的变化。由于非抽样误差的不可控制性，本文不予讨论。例如，抽查10个学生的身高，如果抽到的是A和

4、B两个学生，测出平均身高为170cm。用它代表总体100个学生的平均身高就会有1cm的误差。这1cm误差是客观上存在的，但我们不能确切知道。因为我们只知道A和B的平均身高是170cm，而并不知道总体的平均身高究竟是多少。由于在抽样调查中不可能知道总体的实际平均数，所以抽出一个具体样本的平均数究竟与总体平均数有多大误差，是不可能确切知道的、但是，从一定的总体中抽一定数目的单位做为样本，全部样本平均数与总体平均数之间存在一定关系，并以后者作为它们的平均数，所以可以计算所有样本平均数与总体平均数的平均误差，并用它来表示抽样误差。意思就是，用所调查的这个样本的平均数来代表总体平均数，平均来说会有这么大

5、的误差。所以，抽样误差是对全体样本来说的一个平均的误差围。不论抽到哪个具体样本，所计算的抽样误差都是同一个数值。总体（真正参数）总体（参数）样本（参数，其标准差）样本（参数估计）测量方法正确抽样不良抽样（图1）三、抽样误差的分析的前提：精确度和准确度，信度与效度抽样误差是随机抽样问题研究的核心,但对抽样误差的分析就不得不首先说明几个重要的概念,一个是精确度和准确度,一个是效度和信度.1精确度和准确度之前讲到抽样误差的定义时提到过误差的大小将导致精确度和准确度的变化，也就是说样本应根据随机原则选出，这样选出的样本，经过严格评估其代表性，才能适当地反映总体的涵，估计值的精确度知准确度才会有客观的评

6、估。也就是说，在进行误差分析之前我们必须搞清楚精确度与准确度这两个概念精确度是用来衡量估计精确的程度，亦即指多次重复测定同一个量时各测量值之间彼此相符合的程度。它表示测量过程中随机误差的大小，常用或表示，这里是e的估计量的标准差，是标准正态分布的百分位点，亦称可靠系数，()是置信水平。越小，表示精确度越高，其大小须由专业知识决定。例如，在物价统计中，若认为某项物价指数上升0.02，会影响经济决策，则精确度须定为0.02。准确度是衡量总体参数和总体真正参数之间的差异，亦即多次测量的平均值(作为的估计值)和真值相符合的程度，它表示测量过程中系统误差的大小，用绝对误差表示。例如在惯性导引导弹的设计

7、中，设定目标的经纬度为=(E, N)=(115, 40)，则导弹的设计落弹点应在附近之。若目标点的真正经纬度与有相当距离，则表示越精确的落弹，越不会准确落于目标点。又如，对参数真值=0.80mm重复测量10次，得到其平均值,于是准确度为，表示测量的平均值比真值低0.05mm。精确度与准确度的关系如图3所示。由图可知，测量数据质量高既要求精确度高，又要求准确度高。若精确度高而准确度低或准确度高而精确度低都不能说测量数据质量高。除了精确度与准确度，关于随机抽样误差还有一个重要的前提就是信度和效度。效度是测量中最重要的因素，如果测量是有效的，那么必定也是可靠的，表示测量到的结果正中目标。如果有信度而

8、没有效度，结果则可能完全偏向一端，也就是虽然测量得到了可信结果，但并不是理论上想要研究的那部分结论。因此可以说，信度和效度是误差计算和判断的前提以及成立的根本，所以我们首先要搞清信度和效度的概念。2信度和效度在杜会和行为科学研究中.为了解所搜集资料的可靠性，通常以测量或调查工具的信度和效度作比较。信度是就测量结果的一致性或稳定性而言，若测量或调查工具的信度高，则每次每次测量结果必较一致或稳定;反之.若信度低，则测量结果差异较大，故信度的意义和精确度相同。设X=测量分数，T=真正分数，=测量误差，依线性模式:X=T+,代表测量数据的结构式。例如，在学生数学学习态度调查中。要测量学生对数学学习的

9、态度，则有测量的态度分=真实的态度分+误差，若测得的态度分=真实的态度分，即X=T,则称此测量或量具是可靠的或可信的，否则就是不可靠或不可信的。就信度而言，通常以测量结果和真正结果的相关系数平方的大小来比较不同测量工具之间的信度高低。例如，在教育测量方面，假定五个学生的真正效学分数为89, 80, 72, 60, 54。现以甲乙两套数学成就测验工具同时测定他们的数学成绩，所得结果如下表:五名学生数学成就的真正分数和实得分数学生世纪成就甲测验乙测验真正分数名次实得分数名次实得分数名次A891921644B802852921C723753565D604644852E545565753从表中看出，

10、甲侧脸的分数虽与真正的数学分数有差异。但两者的名次完全相同。而乙侧脸的五个分数虽与甲侧脸的五个分数相同，但其名次却与真正的数学分数不一致，其中甲测验与实际成就的相关系数平方为信度=,而乙测验的信度为=0.043。故甲测验的信度高，乙测验的信度低。效度是指经由测量或调查工具所得的结果是否能准确地测出所欲测量资料的特质或功能，故效度的意义和准确度相同。真正分数T还可以进一步分解成两部分，例如，真正分数=在设计问卷时想测的东西T+与测量目的无关的东西T。即X=。在亚运会调查中，真实的态度分=对亚运会的态度分+对其他问题的态度分，量表测量与测量目的有关的分数的程度就是所谓效度。如果，测量的态度分=真实

11、的态度分=对亚运会的态度分，即X=T=,则称此测量或量表是“有效的”。同样，以测量结果和与目的有关的分数的相关系数平方的大小，来比较不同测量工具之间的效度高低。信度和效度有一定的关系。信度高效度不一定高，而效度高信度一定高。如果量表的设计不能充分显示所要研究的主题，那么整个研究就失去意义。所以进行效度分析是十分重要的。在对调查数据进行信度、效度、精确度与准确度分析的前提下我们来进行随机抽样误差的分析。四.随机抽样误差的分析我们知道从总体中随机抽取的样本不能完全代表总体，这种由随机因素引起的误差是抽样统计上不可避免的，但是利用统计理论能够确定其大小。对正确的抽样而言，抽样误差就是参数与其估计

12、量之差，以估计量的标准差来度量抽样的精确度(如图1所定义)。因参数为未知，故抽样误差是不可测量的值，通常可用其均方差MSE来表示，即:MSE= =+由于，上式中乘积项成为零，偏误是估计量平均数与参数之差。如果估计为不偏，则偏误为零，亦即当时, 是的无偏估计量。D()是估计量的方差，与该估计的效率有关。D()越小，估计的效率越高，在选取估计量时，如以均方差的大小为准则，则可在偏误与估计量方差之间做一取舍。假设，有两个估计量和，如图2所示。图2 估计量的选取(以均方差为准则)虽然为不偏，但其标准差较的标准差为大，故此时以选取有偏估计量为宜，具有较小方差的无偏估计量是最有效的，此时估计量的取值较集

13、中在参数的附近。以上我们已经对随机抽样误差做了详细的分析，并且也对随机抽样误差有了初步的了解，下面我们来谈谈如何对随机抽样误差进行控制，使之符合测量的要求。五随机抽样误差的控制经过之前的分析我们知道，抽样调查的目的是从局部推断全体，即抽样样本指标去估计或推断总体指标。这两者存在一定的差别，这种差别，我们就称之为误差。抽样误差一词包含有双重涵义。它既是指某一次抽样结果的随机误差，即实际误差;又是指抽样的全部可能结果的误差，即抽样平均误差。由于总体指标是未知的，并且每一次取样是随机的，因此我们不可能计算出实际误差。而抽样平均误差则不同，它是样本平均数与总体平均数的标准差，它能利用以下公式计算出来，

14、在简单随机抽样条件下，有:式中代表抽样平均误差代表样本平均数代表总体平均数 M代表样本可能数目代表总体方差 n代表样本单位数 N代表总体单位数所以在实际工作中所讲的随机抽样误差一般都是指抽样平均误差，而非实际误差。为了控制抽样误差，首先必须了解随机抽样误差受哪些因素的影响，以便控制这些因素，使之尽可能减少到最低限度。一般来说，随机抽样误差受以下四个因素的影响，即(1)总体各单位之间的标志变异程度，(2)样本单位数，(3)抽样的方式方法，(4)估计方式。从上面随机抽样误差公式可以看出，抽样误差（）是与总体各单位间的标志变异程度()成正比的，与样本单位数的平方根()成反比。即总体各单位之间的

15、差异程度越大，抽样误差越大，反之，则越小。而抽取的样本单位数越大，随机抽样误差便越小，反之，则越大。另外，随机抽样误差还受抽样方式方法的影响。一般说来，等距抽样和类型抽样的误差小于简单随机抽样，不重复抽样的误差小于重复抽样。估计方法也同样影响随机抽样误差的大小，估计方法选择得恰当，也会降低误差。关于随机抽样误差控制的具体操作，我认为可以从以下几个方面着手:1进行有效性检验所谓有效性检验，就是通过对抽样平均误差的检验，看实际误差与理论误差是否存在着系统性差异。如果通过检验有系统性差异存在，表明所抽得样本不能有效地代表总体;反之，如果通过检验，系统性差异不存在，则表明样本可以代表总体。有效性检验具有两种方法，一是假设检验，二是交叉样本检验。对于假设检验，我们既可以进行样本平均数与总体平均数的显著性检验，也可以进行样本方差与总体方差的显著性检验，两种检验的效果是一致的。除此外，我们还可以采用交叉样本检验。所谓交叉样本检验，就是采用相同的抽样方案，从总体中随机抽出两套或两套以上的子样本，每套子样本都包含至少

展开阅读全文