SAS软件应用之概率抽样方法

资源描述

《SAS软件应用之概率抽样方法》由会员分享，可在线阅读，更多相关《SAS软件应用之概率抽样方法（48页珍藏版）》请在金锄头文库上搜索。

1、第23章概率抽样方法,学习目标,掌握简单随机抽样及SAS程序；掌握系统（机械、等距）抽样及SAS程序；掌握分层抽样及SAS程序；掌握整群抽样及SAS程序。,概述,抽样调查可以分为两类，即概率抽样和非概率抽样。概率抽样是按照随机原则进行抽样，不加主观因素，组成总体的每个单位都有被抽中的概率（非零概率），可以避免样本出现偏差，样本对总体有很强的代表性。非概率抽样是按主观意向进行的抽样（非随机的），组成总体的很大部分单位没有被抽中的机会（零概率），使调查很容易出现倾向性偏差。,概述,现代被广泛应用的抽样调查是概率抽样。因此，现代的抽样调查是指概率抽样，其定义为：抽样调查，又称抽样推断，是一种重要的

2、、科学的非全面调查方法。它根据调查的目的和任务要求，按照随机原则，从若干单位组成的事物总体中，抽取部分样本单位来进行调查、观察，用所得到的调查标志的数据来推断总体。,概述,概率抽样的原则，就是总体中的每一个样本被选中的概率相等。概率抽样之所以能够保证样本对总体的代表性，其原理就在于它能够很好的按总体内在结构中所蕴含的各种随机事件的概率来构成样本，使样本成为总体的缩影。,概述,抽样调查按抽样的组织形式划分，有以下几种主要方法：简单随机抽样：按照等概率的原则，直接从含有N个元素的总体中抽取n个元素组成的样本（Nn）。系统抽样（等距抽样或机械抽样）：把总体的单位进行排序，再计算出抽样距离，然后按照这

3、一固定的抽样距离抽取样本。第一个样本采用简单随机抽样的办法抽取。,概述,K（抽样距离）=N（总体规模）/n（样本规模）前提条件：总体中个体的排列对于研究的变量来说，应是随机的，即不存在某种与研究变量相关的规则分布。可以在调查允许的条件下，从不同的样本开始抽样，对比几次样本的特点。如果有明显差别，说明样本在总体中的分布承某种循环性规律，且这种循环和抽样距离重合。,概述,分层抽样（类型抽样）：先将总体中的所有单位按照某种特征或标志（性别、年龄等）划分成若干类型或层次，然后再在各个类型或层次中采用简单随机抽样或系用抽样的办法抽取一个子样本，最后，将这些子样本合起来构成总体的样本。分层抽样是把异质性较

4、强的总体分成一个个同质性较强的子总体，再抽取不同的子总体中的样本分别代表该子总体，所有的样本进而代表总体。,概述,分层标准为：以调查所要分析和研究的主要变量或相关的变量作为分层的标准。以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。以那些有明显分层区分的变量作为分层变量。,概述,分层的比例问题：按比例分层抽样：根据各种类型或层次中的单位数目占总体单位数目的比重来抽取子样本的方法。不按比例分层抽样：有的层次在总体中的比重太小，其样本量就会非常少，此时采用该方法，主要是便于对不同层次的子总体进行专门研究或进行相互比较。如果要用样本资料推断总体时，则需要先对各层的数据资

5、料进行加权处理，调整样本中各层的比例，使数据恢复到总体中各层实际的比例结构。,概述,整群抽样：抽样的单位不是单个的个体，而是成群的个体。它是从总体中随机抽取一些小的群体，然后由所抽出的若干个小群体内的所有元素构成调查的样本。对小群体的抽取可采用简单随机抽样、系统抽样和分层抽样的方法。优点：简便易行、节省费用，特别是在总体抽样框难以确定的情况下非常适合。缺点：样本分布比较集中、代表性相对较差。一般来说，类别相对较多、每一类中个体相对较少的做法效果较好。,概述,多阶抽样（分段抽样）：按照元素的隶属关系后层次关系，把抽样过程分为几个阶段进行。适用于总体规模特别大，或者总体分布的范围特别广时。二重抽样

6、（又称两相抽样）：就是先抽取一个容量比较大的初始样本，用初始样本估计总体的某些参数或某些必要的信息作为分层的比例或再次抽样的标志，然后将抽出的初始大样本作为“总体”，从中抽取容量合适的样本进行比较详细的调查。特点是，适合用于对总体信息了解比较少的调查。,概述,比率抽样（PPS抽样）：就是将总体按一种准确的标准划分出容量不等的具有相同标志的单位在总体中不同比率分配的样本量进行的抽样。特点是总体中含量大的部分被抽中的概率也大，可以提高样本的代表性。,概述,在抽样调查的实际工作中，经常是要将几种抽样方法结合起来应用。比如，城市居民的收支调查，是将二重抽样、多阶段抽样、分层抽样、机械抽样等多种方法结合

7、起来使用。在现实的商业性的市场调查中也有非概率抽样的应用。如，配额抽样、随意抽样、志愿者抽样、判断抽样、修正的概率抽样和滚雪球抽样等等，由于这些抽样方法容易出现偏差，所以只在对共性特别强的群体的商业性调查中应用。,简单随机抽样及SAS程序,SAS系统中利用SURVEYSELECT过程步进行简单随机抽样。SURVEYSELECT过程的语法格式如下：PROC SURVEYSELECT DATA= OUT= METHOD= SAMPSIZE= SAMPRATE= REP= SEED= NOPRINT;ID variable;RUN;,简单随机抽样及SAS程序,DATA语句指定要分析的数据集名及一些

8、选项；OUT选择项指定输出结果的SAS数据集名，用来保存抽样输出的结果；METHOD选择项指定抽样方法，其中SRS（simple random sampling）为简单随机抽样，SYS（system random sampling）为系统随机抽样，等等；SAMPSIZE选择项指定需要抽样的样本量；,简单随机抽样及SAS程序,REP选择项指定可以重复抽样的次数；SAMPRATE选择项指定抽样的比例；SEED选择项指定产生随机随机数字的初始数，缺省是0或负值；NOPRINT选择项指定不对输出结果进行打印；ID语句指定数据集中需要包含的变量指标。,系统（机械、等距）抽样及SAS程序,把总体的单位进行

9、排序，再计算出抽样距离，然后按照这一固定的抽样距离抽取样本。第一个样本采用简单随机抽样的办法抽取。在SURVEYSELECT过程步中，只需要将METHOD选择项设定为SYS（systematic random sampling）即可，通过CONTROL语句设定某个变量作为抽样距离参考变量，即抽样之前按照CONTROL变量对原始样本进行排序，然后按照规定的样本量确定抽样距离，随机选取第一个样本并进行系统抽样。,整群抽样及SAS程序,整群抽样抽样的单位不是单个的个体，而是成群的个体。它是从总体中随机抽取一些小的群体，然后由所抽出的若干个小群体内的所有元素构成调查的样本。把“成群的个体”当作个体来看

10、待，那么整群抽样与简单随机抽样的原理就是一样的。,多阶抽样及SAS程序,是将总体分成若干小的群体，但并不在每一小的群体中抽取一个样本，而是将这些小群体称为第一性抽样单元，将它们看作个体进行抽样，然后，再对抽中的第一性抽样单元中的个体抽样，这样的抽样当然可以不止二阶而是多阶的，先抽第一性样单元，再在第一性样单元钟抽第二性样单元，再在第二性样单元中抽第三性样单元，如此直至最基层的个体。,多阶抽样及SAS程序,当总体中个体数量太大，或其他技术上的原因，无法直接对个体编号时，可以采用多阶抽样，先按第一性单元编号，抽取若干个，再在抽得的第一性单元内编号，抽取下一级单元。多阶抽样会使现场观测的样本单元比较

11、集中，有利于节省调查费用。多阶抽样的SAS程序也是以简单随机抽样和系统性抽样为基础的，只是每一次抽样过程编写一个SAS程序而已，即需要编写多个SAS程序以进行多次抽样。,本章小节,现代被广泛应用的抽样调查是概率抽样。因此，现代的抽样调查是指概率抽样，其定义为：抽样调查，又称抽样推断，是一种重要的、科学的非全面调查方法。它根据调查的目的和任务要求，按照随机原则，从若干单位组成的事物总体中，抽取部分样本单位来进行调查、观察，用所得到的调查标志的数据来推断总体。,本章小节,概率抽样的原则，就是总体中的每一个样本被选中的概率相等。概率抽样之所以能够保证样本对总体的代表性，其原理就在于它能够很好的按总体

12、内在结构中所蕴含的各种随机事件的概率来构成样本，使样本成为总体的缩影。,本章小节,简单随机抽样：按照等概率的原则，直接从含有N个元素的总体中抽取n个元素组成的样本（Nn）；系统抽样（等距抽样或机械抽样）：把总体的单位进行排序，再计算出抽样距离，然后按照这一固定的抽样距离抽取样本。第一个样本采用简单随机抽样的办法抽取；分层抽样（类型抽样）：先将总体中的所有单位按照某种特征或标志（性别、年龄等）划分成若干类型或层次，然后再在各个类型或层次中采用简单随机抽样或系用抽样的办法抽取一个子样本，最后，将这些子样本合起来构成总体的样本；,本章小节,整群抽样：抽样的单位不是单个的个体，而是成群的个体。它是从总

13、体中随机抽取一些小的群体，然后由所抽出的若干个小群体内的所有元素构成调查的样本。对小群体的抽取可采用简单随机抽样、系统抽样和分层抽样的方法；多阶抽样（分段抽样）：按照元素的隶属关系后层次关系，把抽样过程分为几个阶段进行。适用于总体规模特别大，或者总体分布的范围特别广时。,第24章样本量估计,学习目标,掌握抽样调查样本量的估计及SAS程序；掌握单样本与已知总体检验时样本量的估计及SAS程序；掌握两样本率比较的样本量估计及SAS程序；掌握配对设计总体率比较的样本量估计及SAS程序；掌握抽样调查总体参数估计时的样本量估计及SAS程序；掌握单样本与已知总体检验时样本量的估计及SAS程序；两总体均数比

14、较的样本量估计及SAS程序；配对设计两样本均数比较的样本量估计及SAS程序。,概述,医学研究没有绝对的样本量标准，不同的研究方法、研究目的，研究要求和研究资料决定了样本量。一般而言，样本越大，结果的估计越精确。但样本过大或过小均可影响研究的可行性。因此，科学地确定样本量可增加研究的可靠性，得到可信的研究结果。,样本量估算的影响因素,在科学研究方法中，现在越来越强调样本量的估算。确定适当的样本含量，可节约资源，并防止因为样本含量过少引起的检验效能偏低，出现了非真实的阴性结果，这是当前医学研究中值得注意的问题。确定样本含量的主要用途是保证科研设计有适当的样本含量，而且可考察当前的样本含量是否能够保

15、证足够大的检验效能。,样本量估算的影响因素,样本量的估算方法很多，不同的统计检验方法使用的计算公式也不一样，一般影响样本量的因素比较多：研究事件的发生率：研究事件预期出现的结局（疾病或死亡），疾病发生率越高，所需的样本量越小，反之就要越大。,样本量估算的影响因素,研究因素的有效率：有效率越高，即实验组和对照组比较数值差异越大，样本量就可以越小，小样本就可以达到统计学的显著性，反之就要越大。设定检验的第类错误概率，即检验水准或显著性。即假设检验第一类错误出现的概率。为假阳性错误出现的概率。越小，所需的样本量越大，反之就要越小。水平由研究者根据具体情况决定，通常取0.05或0.01。,样本量估算的

16、影响因素,设定检验的第类错误概率，或检验效能1- 。检验效能又称把握度，为1-，即假设检验第二类错误出现的概率，为假阴性错误出现的概率。即在特定的水准下，若总体参数之间确实存在着差别，此时该次实验能发现此差别的概率。检验效能即避免假阴性的能力，越小，检验效能越高，所需的样本量越大，反之就要越小。水平由研究者具情决定，通常取为0.2，0.1或0.05。即1=0.8，0.1或0.95，也就是说把握度为80%，90%或95%。,样本量估算的影响因素,了解由样本推断总体的一些信息。总体标准差一般未知，用样本标准差s代替。处理组间差别的估计，即确定容许误差。如果调查均数时，则先确定样本的均数和总体均数之间最大的误差为多少。容许误差越小，需要样本量越大。一般取总体均数（1）可信区间的一半。,样本量估算的影响因素,用统计学检验时，当研究结果高于和低于效应指标的界限均有意义时,应该选择双侧检验,所需样本量就大；当研究结果仅高于或低于效应指标的界限有意义时，应该选择单侧检验，所需样本量就小。当进行双侧检验或单侧检验时，其或的Ua界值通过查标准正态分布的分位数表即可得到。,

展开阅读全文