{品质管理抽样检验}企业抽样调查ppt84

资源描述

《{品质管理抽样检验}企业抽样调查ppt84》由会员分享，可在线阅读，更多相关《{品质管理抽样检验}企业抽样调查ppt84（84页珍藏版）》请在金锄头文库上搜索。

1、企业抽样调查,1,主要内容,抽样调查基本知识服务业抽样调查概况企业抽样调查实例,2,抽样调查基本知识,3,主要内容,抽样调查的基本概念抽样调查的基本理论基本抽样方法抽样方法的选择对抽样调查的基本认识,4,一、抽样调查的基本概念,抽样调查概率抽样与非概率抽样总体与样本目标总体与抽样总体抽样框调查单位与抽样单位误差误差限与置信度抽样效率与设计效果,5,抽样调查,统计调查分为全面调查与非全面调查两类。抽样调查是非全面调查中的一种重要方法，它是从所研究对象的全体（总体）中抽取一部分（样本）进行调查，获取数据，并以此对总体目标量作出推断（估计）。这是广义的抽样调查概念。根据

2、样本抽取方法的不同，抽样可分为概率抽样和非概率抽样。,6,概率抽样,概率抽样（probability sampling）也称随机抽样。概率抽样是严格地按照给定的概率来抽取样本的。特点：按一定的概率以随机原则抽取样本。随机不等与随便。随机有严格的科学定义，可用概率来描述，而随便带有人为或主观因素，它不是一个科学的概念。,7,概率抽样(续),每个单位被抽中的概率是已知的，或可计算出来。当用样本对总体目标量估计时，要考虑到该样本抽中的概率，也就是说，估计量不仅与样本观测值有关,也与被抽中的概率有关。通常所提到的抽样调查实际上指的就是概率抽样。国际交流：企业抽样调查包括本行业所有规模的企业

3、。,8,非概率抽样,非概率抽样（non-probability sampling）是相对于概率抽样而言，并无严格的定义，不是按随机原则来抽选的。这种抽样效果的好坏在很大程度上依赖于抽样者的主观判断能力和经验，而且不能计算抽样误差，不能从概率意义上控制误差并以此来保证推断的准确性。此外，即使经验可能已表明某种非概率方法过去曾有较好效果，但这并不能保证该方法一直如此。不过尽管有其理论上的弱点，各种形式的非概率抽样仍在实践中广泛采用，主要原因是节省费用和方便。,9,非概率抽样（续1）,通常我国的典型调查和重点调查,西方国家称为的有目的抽样或判断抽样等都属于非概率抽样。如果调查的目的是用样本数据推断

4、总体的目标量，并以一定的把握程度保证总体目标量落在目的范围，这时非概率抽样是不合适的。,10,总体和样本,总体（population）：总体就是全部被研究的单位,也称研究总体。按研究的总体不同，总体单位可以是人、户或企业。在服务业抽样调查中，总体就是这些行业的企业和个体户。样本(sample)：是总体的一部分，从总体中按一定程序抽得的那部分个体或抽样单位。样本量n对总体总单位数N的比称为抽样比(sampling fraction)：,11,目标总体与抽样总体,目标总体（target population）：是真正作为研究对象的全体。如要研究山西省居民服务业的情况，目标总体就是所有从事居民服务

5、业的企业和个体户。抽样总体（sampling population）：是用作抽样的总体，也就是抽样框。二者应一致，实际难做到。如目标总体是2006年所有从事居民服务业的企业和个体户，但很难做到对在调查时（2007年1月）已消亡的单位的调查，尽管在调查时消亡，但可能在2006年全年营业。先定义目标总体，再根据条件进行修订得到抽样总体。,12,总体参数与样本统计量,无论对总体还是样本，统计中通常使用平均数和标准差等这样一些数量关系进行描述，它们被用于描述总体特征时，称为总体参数，用于描述样本特征时，称为样本统计量。如：居民服务业抽取800家企业，调查结果计算出企业平均营业收入400万元（样本

6、统计量），总体平均营业收入（总体参数）未知。抽样目的是样本（样本统计量）推断总体（总体参数）。如用800家的平均营业收入作为总体平均营业收入的估计值。,13,抽样框,抽样框(sampling frame)：抽样框是指包含所有抽样单位的名单或名册。由于抽样方法不同,可有目录框和区域框,分级抽样框。名单中的每个单位都有可识别的基本信息；名单的范围应是完整的，不重不漏。现实中使用的抽样框并不十分完备，一方面，要改进和完善，如更新和维护；另一方面调查的设计者要认真分析抽样框的状况，以评价框的不完整对调查结果产生的影响，并尽可能采取一些补救的办法。,14,调查单位与抽样单位,调查单位（survey

7、 unit）：抽样调查要通过对样本单位的观察或调查来取得有关数据或记录有关特征，这些单位称为调查单位。如企业和个体户。抽样单位(sampling unit)：抽样单位是指将总体划分成不重叠的有限多个部分的每个部分。区域、企业和个体户。,15,误差,抽样误差（sampling error）：是由于用样本估计总体而产生的误差，也叫代表性误差。非抽样误差（nonsampling error）：是指除抽样误差以外的，由于各种原因而引起的误差，在各种方式的调查中都存在。,16,抽样框误差,遗漏单位与新增单位；重复；辅助信息是否准确。,17,无回答误差,单位无回答；项目无回答；部分无回答。,1

8、8,设计误差,问卷设计引起的误差；抽样设计(选用的方法、分层合理性)及抽选过程(随机)引起的误差。,19,调查员引起的误差,调查员的责任心和态度；调查员水平。,20,被调查者引起的误差,无意识回答误差；有意识回答误差。,21,处理误差,编码；编辑录入；加权；做表。,22,点估计和区间估计,点估计：抽样调查用样本统计量直接作为总体参数的估计值，称点估计。如用样本计算得到的企业平均营业收入作为总体企业的平均营业收入的估计值，就是点估计。区间估计：是对总体参数可能落入的一个数值范围作出的估计，估计值的取值范围称“置信区间”，与置信区间估计相联系的概率称“置信度”，表示置信区间估计包含了

9、总体参数的可靠程度有多大。,23,抽样效率与设计效果,抽样效率（sampling efficiency）：是指两个抽样方案的抽样方差之比；当某个估计量的方差比另一估计量的方差小时，则称方差小的估计量效率比较高。设计效果(design effect,，简写为Deff)：就是把一个设计方案的方差与简单随机抽样的方差进行比较。Deff小于1时，表示设计方案的效率高于简单随机抽样，反之，效率低于简单随机抽样。,24,三种性质的分布,总体分布（population distribution）：是指研究对象这一总体的各个单位标志值的分布状况。样本分布（sample distribution）：样本单位

10、标志值的的分布，就称为样本分布。随着样本的增多，样本分布逐渐接近总体分布。抽样分布：是指样本估计量的分布。如采用同样的抽样方法和同等的样本量，在居民服务业企业中抽取多套样本，每套样本都能计算出一个估计量，所有可能的估计量形成的分布就是抽样分布。,25,永久随机数,随机数就是按随机方法而生成的数码。即0，1，29这十个数字出现的机会是等概率的，但排列的顺序是随机的。永久随机数（Permanent Random Numbers）则是指长久使用、不改变的随机数。比如一个企业一旦被赋予了一个随机数，则在以后的调查中都使用这个随机数，它类似企业法人代码，具有唯一和终身性。对于样本轮换和不同调查中共

11、享样本非常有用。首先对每个单位赋予一个随机数，然后按随机数大小顺序排队，抽取所需要的样本量。,26,概率,概率是指用来测定样本被抽中可能性大小的一个非负的数值。,27,权数,在概率抽样中，每个样本单位都代表调查总体中的一些未被抽中单位，通常，将一个样本单位所代表的总体单位的数量即样本单位抽中概率的倒数称为这个样本单位的设计权数或基础权数。,28,权数（续1）,100个企业中抽10个企业，每个企业被抽中的概率就是10/100=1/10，权数就是100/10=10，即一个样本企业代表了总体中的10个企业。分层抽样中，要在层内计算权数。如企业分成大、中、小3层。,29,分层抽样基础权数计算方法,

12、30,权数（续2）,最终权数与基础权数之间的关系最终权数等于基础权数：如果一项抽样调查不存在无回答或涵盖不全等情况，基础权数等于最终权数，可以直接用于估计。最终权数在基础权数基础上进行调整：存在无回答情况（无回答多与少）；范围涵盖不全；企业分开；企业重复。,31,权数（续3）,不同的抽样方法，权数是不一样的，即推算方法是不一样的。目录抽样：基础权数=N/n，最终权数在基础权数基础上进行调整（无回答、范围涵盖不全）。二阶段目录抽样：基础权数等于两个阶段权数之积。最终权数在基础权数基础上进行调整（无回答、范围涵盖不全），在两个阶段分别调整。如服务业个体抽样，第一阶段抽居村委会，基

13、础权数等于层内居村委会个数样本居村委会个数；,32,权数（续4）,第二阶段抽部分个体户，基础权数等于样本居村委会中个体户总数抽取的个体户数。为了避免权数调整，调查中可规定： PSU和个体户不允许无回答；合并和分开的PSU，维持原状；对样本PSUs维护个体户数。 fgtybn37.xls,33,权数（续5）,整群抽样：与目录抽样方法类似，只不过是将一个群当作一个样本单位对待。基础权数=N/n，最终权数在基础权数基础上进行调整（无回答、范围涵盖不全）。为了避免权数调整，调查中可规定： PSU和个体户不允许无回答；合并和分开的PSU，维持原状；对样本PSUs维护个体户数。,34,总量估计

14、方法,各种抽样方法都有自己的总量估计计算方法，一些复杂抽样的总量估计计算公式比较复杂，但利用权数，各种抽样方法总量估计计算公式可统一、简单地表述为样本权数与指标值乘积的关系。为回答单位的最终权数，是样本单位的指标值。,35,二、抽样调查的基本理论,两个极限定理估计量的优良性不用怀疑要遵守抽样原则,36,两个极限定理,大数定理：随机事件的规律总是在对大量随机现象的观察中才能显现出来，随着观察次数的增大，随机影响将相互抵消，而使规律性有稳定的性质。中心极限定理：由于正态分布在数理统计中具有特别重要的地位，因此关于寻找在什么条件下将趋于正态分布，这类定理统称为中心极限定理。,37,估计量

15、的优良性,无偏性：，的平均值（期望值），满足这个关系的称为是无偏的。相合性：当时，以为极限，满足这个性质的估计量称为是相合的。有效性（方差小）：方差小的估计量比方差大的估计量有效。可用性：若趋于零的速度比均方误差的平方根趋于零的速度更快，则称是可用的。,38,三、基本抽样方法,简单随机抽样（simple random sampling）等距（系统）抽样(systematic sampling) 分层抽样(stratified sampling) 二阶与多阶抽样(twostage or multistage sampling 整群抽样（cluster sampling）

16、) 不等概率抽样（sampling with unequal probabilities）二重抽样（double sampling）或双相抽样(two phase sampling ),39,简单随机抽样,方法:1到N编号，抽取n个，每一个样本都有同样的机会被抽中。条件：必须有包含全部单位的抽样框。优点：简单方便，不需要辅助信息。缺点：若样本分散，不好组织或调查成本高； N大时抽样框不容易编制。企业调查中，通常有某些用于分层的辅助信息，很少直接采用简单随机抽样，通常只是用于其他方法的某些过程，如分层抽样中层内样本的抽取。,40,等距（系统）抽样,方法:先将总体单位按某种顺序排队，随机确定一个起点抽取第一个样本单位，然后每隔（=N/n) 个单位抽取其余单位。如果抽样间距不是整数，可四舍五入。条件：总体单位的一个确定的排列。优点：实施简单。缺点：精度估计比较困难。通常采用简单

展开阅读全文