统计学专业硕士课程,抽样理论与方法(统计学专业),经济学院 刘超,第1讲 绪论,第01章 绪论,第01章 绪论,抽样的类型 抽样技术理论 抽样技术的发展,1.1 抽样的类型,非概率抽样 主要依据研究者的主观意愿、判断或是否方便等因素 抽取样本;误差大,难以估计,代表性小,适合探索性研 究主要有:偶遇抽样、判断抽样、定额抽样、雪球抽样 概率抽样 依据概率论的基本原理,按照随机原则进行抽样; 主要有:简单随机抽样、系统抽样、分层抽样、整群抽样、 多段抽样,,,1.1 抽样的类型,1.1.1. 非概率抽样,非随机抽样的含义、应用范围 (一)非随机抽样的含义 它是在不确定总体中,按照非随机原则选取样本,并用这部分样本指标的调查结果,来判断总体指标的一种抽样类型 (二)非随机抽样的范围 1.当对调查的总体不够清楚,或者太复杂,不适于采取随机抽样时,那么,就需要用非随机抽样来抽出样本; 2.适用于经常性的调查和方便灵活的调查1.1.1. 非概率抽样,偶遇抽样 方便抽样或自然抽样,指研究者根据现实情况,以自己方便的 形式抽取偶然遇到的人作为对象,或者仅仅选择那些离得最近、 最容易找到的人作为对象或者说研究可以得到的一组个体.,,1.1.1. 非概率抽样,适用范围 (1)可用于经常性的市场调查; (2)可用于正式市场调查之前的试验调查; (3)任意调查适用于同质总体。
优点:方便、灵活,简便易行,及时取得所需资料,节约时间 和费用成本低 缺点:因为个体差异性,抽样误差很大,结果不够可靠,应用 价值较低,1.1.1. 非概率抽样,含义:又称立意抽样法,它是指由市场调查的专家依据自己的判断来选取样本的一种方法 适用范围:总体的构成单位差异较大而样本数又很小的情况 优点:因为是按照调查人员的需要来选定样本,所以较好地满足了特殊的调查需要 缺点:如果调查人员在选取样本时主观判断出现偏差,则判断抽样极易发生较大的抽样误差判断抽样 研究者根据研究目标和自己的主观分析来选择和确定他们认为可以提供所需要信息的人作为样本采用判断抽样法应注意的问题: 一要选好专家,二要应极力避免挑选极端情况的样本,“多数型”、“平均型” 两种具体做法 专家判断选择样本 : 平均型 统计判断选择样本: 多数型 利用调查总体的全面统计资料,按照一定的标准选择样本,1.1.1. 非概率抽样,如进行现场访问,任意选择一群消费者或者营业人员进行谈话,了解他们对商品质量的看法或购买动向 举例:在街头向过路行人做访问调查;上门对一栋大楼内的每个公司进行访问式调查;在柜台销售商品过程中向购买者做询问调查等(样本的选取完全随调查人员的方便而定) 理论依据:认为被调查的母体中的每一个个体都是相同的 注意:适用于非正式的探测性调查,或调查前的准备工作。
1.1.1. 非概率抽样,1.1.1. 非概率抽样,研究者根据可能影响研究变量的因素对总体分层,并计算出比例,然后取挑选对象 检验理论、解释关系、比较不同群体时,抽样标准是适合性,不是代表性,定额抽样 指按照一定的标准确定地区别和职业等不同群体的样本配额,然后由调查人员主观地抽取配额内样本的方法适用范围:通常适用于小型的市场调查 步骤: (1)选择“控制特征”作为细分总体的标准; (2)将总体按“控制特征”组成 若干子总体; (3)决定各子总体样本的大小; (4)选择样本单位定额抽样,1.1.1. 非概率抽样,配额抽样法和判断抽样法既有联系又有区别 二者的联系是:配额抽样实质是一种“分层”判断抽样 二者的区别是: 抽取样本的方式不同: a配额抽样是分别从各个控制特征的层次抽取若干个样本 b判断抽样是从总体中的某一层次中抽取若干个符合条件的典型样本 二者的侧重点不同; a配额注重“量”的分配 b判断抽样注重“质”的分配 复杂程度不同: a配额抽样方法复杂精密 b判断抽样方法简便易行,1.1.1. 非概率抽样,雪球抽样 在无法了解总体情况时,从少数成员入手调查并询问其他符合条件的人,再找这些人所知道的人。
1.1.1. 非概率抽样,1.1.2 概率抽样,概率抽样的程序 简单随机抽样 系统抽样 分层抽样 整群抽样 多阶段抽样,,1.1.2 概率抽样,概率抽样的程序,界定总体:范围与界限 制定抽样框:收集总体中全部抽样单位的名单,并对名单统一编号分段、分层抽样时则要分别建立起几个不同的抽样框 决定抽样方案:确定抽样方法、样本规模、主要目标量的精确程度 实际抽取样本:按照选定方法从抽样框中抽取一个个抽样单位,构成样本 评估样本质量:质量、代表性、偏差 将可得到的反映总体中某些重要特征及其分布的资料与样本中的同类指标进行对比1.1.2 概率抽样,简单随机抽样,单纯随机抽样:按照等概率原则直接从含有N个元素的总 体中随机抽取n个元素组成样本(N>n) 常用的方法:抽签、随机数字表 优点:可能产生代表性样本 缺点:不容易做 编号难 必须能够接触到被选中的个体 成分比例难,,1.1.2 概率抽样,分层抽样 将总体中的所有单位按照某种特征或标志划分为若干类型或层次,在每个类型或层次中采用简单随机抽样或系统抽样的方法抽取一个子样本,共同构成研究的样本. 优点: 1.在不增加样本规模的前提下降低抽样误差,提高抽样精度,增大代表性 2.便于了解总体内不同层次的情况,以及对总体中的不同层次进行单独研究或者进行比较. 注意: 1.分层的标准问题 2.分层的比例问题,,1.1.2 概率抽样,系统抽样,等距抽样或机械抽样,将总体的单位编号排序后,按照固定的间隔抽取个体组成样本的方法. 步骤: 1.制定抽样框 2.计算抽样间隔:K=N/n 3.在第一组K个个体中随机抽取一个个体A. 4.在抽样框中每隔K个个体抽取一个个体. 5.将n个个体合起来构成样本. 注意2种情况: 1.抽样框中的个体排列具有某种次序或等级 2.抽样框中的个体排列具有与抽样间隔对应的周期性分布.,,1.1.2 概率抽样,整群抽样,从总体中随机抽取一些小群体,将小群体的所有元素构成样本. 对小群体的抽取可采用简单随机抽样、系统抽样、分层抽样的方法。
优点: 1简化抽样过程 2降低收集资料的费用 3扩大抽样范围 缺点:代表性比较差,,1.1.2 概率抽样,多阶段抽样,多级抽样或分段抽样,按照抽样元素的隶属关系或 层次关系,把抽样过程分为几个阶段进行 步骤: 1以大群为单位编制抽样框 2抽取若干大群 3以小群为单位给每个大群编制抽样框 4分别从每个大群中抽取小群 5根据需要重复3、4步骤 6得到基本元素,构成研究样本 优点:方便易行,,1.2 抽样技术内容,经典理论:简单随机抽样、分层抽样、比估计、回归估计、不等概率抽样、二重抽样、系统抽样、多阶段抽样等扩展理论: 调查方式改变 无回答现象、计量误差 复杂抽样方差估计 最优抽样设计 —— certain methods are often used to improve the precision and control the costs of survey data collection. * 在固定费用下精度最高; * 或在一定精度条件下调查总费用最省;,1.3 抽样调查的发展简史,百年历史,全面调查——非全面,推论统计的发展——数理统计的 分支 1. 个别场合适用,1802法国数学家拉普拉斯,人口调查,两阶段(便利),比估计(出生人口) 2. 正式提出、推广、逐步普及。
1894挪威统计局长凯尔,——代表性调查,退休金、疾病保险金调查1895,瑞士ISI国际统计会议(五次)——1903年ISI(九次)统计学家认同.,1.3 抽样调查的发展简史,3. 主导地位英国鲍莱,1906简单随机抽样、1912系统抽样;1925按比例分层,1930美国经济恐慌促进调查成长 4. 理论发展与完善如费歇尔1920:随机化——无偏,重复——方差估计,区组——分层; ——不等概,理论上证明随机抽样合理性;多阶段.奈曼:1934RSS,最优分配、比估计、比例估计汉森-赫维茨:PPS抽样,现时人口调查CPS;马哈拉诺比斯1930:印度统计学院,交叉子样本,费用函数、方差函数 ,非抽样误差,1.4 抽样调查的发展简史,1940,陈达、戴世光,国情普查研究所,云南呈贡县,人口普查,——清华学报 50年代——报表、全面统计为主,部分抽样,农调队 81——城调队、农调队,94企调队 80年代后市场调查萌芽发展 我国统计法规定:统计调查应以周期性普查为基础,以经常性抽样调查为主题,以必要的统计报表、重点调查与综合分析等为补充,搜集与整理基本统计资料第2讲 简单随机抽样,第02章 简单随机抽样,第02章 简单随机抽样(SRS),定义及其抽选方法 简单估计量及其性质 样本量的确定 设计效应 稀有事件的抽样问题,Simple Random Sampling (SRS),抽样方案设计,第一、确定抽样调查的目的、任务和要求; 第二、确定调查对象的范围和抽样单位; 第三、确定抽取样本方法; 第四、对主要抽样指针的精度提出要求;确定必 要的样本数; 第五、确定总体目标量的估算方法; 第六、制订实施总体方案的办法和步骤。
2.1定义与符号,简单随机抽样也称为单纯随机抽样 从含有 N 个单元的总体中抽取 n 个单元组成样本,如果抽样是不放回的,则所有可能的样本有 个,若每个样本被抽中的概率相同,都为 ,这种抽样方法就是简单随机抽样 具体抽样时,通常是逐个抽取样本单元,直到抽满n个单元为止有限,2.1.1 放回简单随机抽样,放回简单随机抽样(SRS with replacement) 当从总体N个抽样单元中抽取n个抽样单元时,如果依次抽取单元时,不管以前是否被抽中过,每次都从N个抽样单元中随机抽取,这时,所有可能的样本为 个(考虑样本单元的顺序), 每个样本被抽中的概率为 放回简单随机抽样在每次抽取样本单元时,都将前一次抽取的样本单元放回总体,因此,总体的结构不变,抽样是相互独立进行的,这一点是它与不放回简单随机抽样的主要不同之处 放回简单随机抽样的样本量不受总体大小的限制,可以是任意的简单随机抽样的抽取原则: (1)按随机原则取样; (2)每个抽样单元被抽中的概率都是已知的或事先确定的; (3)每个抽样单元被抽中的概率都是相等的2.1.1 放回简单随机抽样,2.1.1 放回简单随机抽样,【例2.1】设总体有5个单元(1、2、3、4、5),按放回简单随机抽样的方式抽取2个单元,则所有可能的样本为25个(考虑样本单元的顺序):,2.1.2 不放回简单随机抽样,(SRS without replacement) 当从总体N个抽样单元中依次抽取n个抽样单元时,每个被抽中的单元不再放回总体,而是从总体剩下的单元中进行抽样。
不放回简单随机抽样的样本量要受总体大小的限制 在实际工作中,更多的采用不放回简单随机抽样2.1.2 不放回简单随机抽样,【例2.2】设总体有5个单元(1、2、3、4、5),按不放回简单随机抽样的方式抽取2个单元,则所有可能的样本为10个:,符号,大写符号表示总体的标志值, 用小写符号表示样本的标志值,,符号,大写符号表示总体的标志值, 用小写符号表示样本的标志值,,总体指标值上面带符号“^”的表示由样本得到的总体指标的估计 称 为抽样比,记为f 估计量的方差用大写的V表示,对 的 样本估计,不用 而用 表示2.1.2 不放回简单随机抽样,2.1.3 抽选方法,抽签法 随机数法——随机数表、随机数骰子、摇奖机、计算机产生的伪随机数 随机数表法: N=327 n=5 讨论: (1) 总体编号为1~35,在00~99中产生随机数,若=00或35,则抛弃重抽 (2) 总体编号为1~35,在00~99中产生随机数,以除以35,余数作为被抽中的数,如果余数为0,则被抽中的数为352.1.4 地位与作用,优点 简单直观 理。