303编号统计学yu8-1

上传人:玩*** 文档编号:145844566 上传时间:2020-09-23 格式:PPT 页数:111 大小:6.62MB
返回 下载 相关 举报
303编号统计学yu8-1_第1页
第1页 / 共111页
303编号统计学yu8-1_第2页
第2页 / 共111页
303编号统计学yu8-1_第3页
第3页 / 共111页
303编号统计学yu8-1_第4页
第4页 / 共111页
303编号统计学yu8-1_第5页
第5页 / 共111页
点击查看更多>>
资源描述

《303编号统计学yu8-1》由会员分享,可在线阅读,更多相关《303编号统计学yu8-1(111页珍藏版)》请在金锄头文库上搜索。

1、第八章(),抽样推断,内容提要,理解抽样推断的概念及特点、抽样误差 掌握抽样组织的形式; 熟悉总体参数的点估计方法; 掌握总体均值的区间估计方法; 掌握总体比例的区间估计方法 掌握样本容量的确定方法 掌握假设检验的推断分析方法,一、抽样推断的概念 统计抽样法是统计分析研究中的一种重要方法,包括抽样调查和抽样推断两部分。,第一节 抽样推断概述,抽样推断的特点: 抽取样本单位时,遵循随机原则; 是由部分推断总体的一种研究方法,即以样本的数量特征去推断总体的数量特征; 抽样推断产生抽样误差,但抽样误差可以事先计算与控制。,二、有关抽样推断的几组概念(*回顾),总体:又称母体、全及总体,指所需要研究对

2、象的全体,由许多客观存在的具有某种共同性质的单位构成。总体单位数用N表示; 样本:又称子样,来自总体,是从总体中按随机原则抽选出来的部分,由抽选单位构成。样本单位数用n表示; 总体是唯一的、确定的,而样本是不确定的、可变的、随机的。,(一)总体和样本,总体参数:反映总体数量特征的指标,数值是唯一确定的。 样本统计量:根据样本分布计算的指标,是随机变量。,(二)总体指标和样本指标,参数 统计量 平均数 标准差、方差 p 成数(比例) p,总体,样本,代表样本单位数量标志的一般水平; 通常用 表示:,样本平均数,在抽样总体中,一个现象有两种表现时,其中具有某一种表现的单位数占抽样总体单位数的比重叫

3、做样本成数,用p表示。 计算公式: 式中,n代表样本总体单位数,n1表示具有某一种表现的单位数;n0代表不具有此种表现的单位数;p、q代表样本成数。,样本成数,例如,从某灯泡厂生产的灯泡中,抽样检查了100只灯泡,其中有3只不合格,则: 样本灯泡不合格率 样本灯泡合格率,重复抽样 例:从ABCDE五个字母中随机抽取两个作为样本,N=5,n=2 考虑顺序时:样本个数=5*5=25 不考虑顺序时:样本个数=15,(三)抽样方式,不重复抽样 例如从ABCDE五个字母中随机抽取两个作为样本,N=5,n=2 考虑顺序时:样本个数=20 不考虑顺序时:样本个数=10,基本原则: 保证实现抽样的随机性原则

4、保证实现最大的抽样效果原则,三、抽样设计,简单随机抽样 在对总体未做任何处理的情况下,按随机原则直接从总体的N个单位中抽取n个单位作为样本,使每个总体单位都有同等机会被抽到。 具体方法: 先对总体每个单位进行编号,然后采用抽签的方式或根据随机数表来抽取样本。,常用的抽样组织形式,特点: 直接从总体中抽取所需要调查的单位,无须经过分组、分类、排队或组群等处理; 必须事先对总体中所有单位进行编码或编号。当总体很大,编号工作很困难,或对连续生产的产品不可能编号时,就很难采用这种方法; 抽取样本时不借助有关标志的辅助信息; 当总体各单位标志值之间差异很大时,采用这种抽样方式不能保证样本的代表性; 简单

5、随机抽样主要适用于单位数不多且内部差异不太大的总体的抽样。,类型抽样 又称为分层抽样或分类抽样,是先对总体各单位按照某一标志加以分类,再从各类中按随机原则抽取样本单位。 优点: 能提高样本的代表性; 能降低抽样平均误差的总方差; 便于组织工作; 适用于对被调查标志的标志值在各单位间分布差异大的总体的抽样,如何分组? 原则:在定性分析的基础上尽量缩小组内各标志值之间的差异,增大组间各标志值之间的差异,从而降低抽样误差的总方差; 方法:等比例分配法 即样本单位在各类之间的分配比例与总体单位在各类之间的分配比例是一致的,整群抽样 将总体划分为由总体单位所组成的若干群,然后以群作为抽样单位,从总体中抽

6、取若干群作为样本,并对中选群内的所有单位进行全面调查的抽样方式。 优点: 无须编制总体单位名单,只需编制总体群名单; 当总体缺乏包括全体单位的抽样框,无法进行抽选时,可以采用整群抽样; 一般是不重复抽样;,等距抽样 又称为机械抽样或系统抽样,先将总体各单位按某一标志排队,然后依固定顺序和间隔来抽取样本单位的一种抽样组织形式。 等距抽样是不重复抽样,等距抽样的随机性体现在抽取第一个样本单位,当第一个样本单位确定后,其余的各个单位也就确定。 适用于对单位不多且能进行排序的总体抽样,多阶段抽样 在总体容量很大或分布很广的情况下,很难通过一次抽样得到一个完整的样本,需要把整个抽样的程序分成若干个阶段,

7、分阶段的进行抽样; 在抽样中能把多种抽样方式结合起来使用,最大限度的保证样本的代表性。,类型抽样,随机抽样,一、抽样误差的概念 抽样误差是样本指标和总体指标之间的差数。 误差种类: 登记性误差 随机性误差(抽样误差),影响抽样误差大小的因素 样本单位数的多少 总体标志变异程度的大小 抽样方法,二、抽样平均误差 抽样平均误差是抽样误差的一般水平,为随机变量 通常用抽样平均数的标准差或抽样成数的标准差来作为衡量误差的一般水平的尺度,样本平均数的抽样平均误差-重复抽样 例:某班组有5个工人的日工资为34、38、42、46、50元。 总体均值为 总体方差为 现用重复抽样的方式从5个人中随机抽取2个构成

8、样本,样本个数为5*5=25,验证了以下两个结论: 即在重复抽样方式下: 样本平均数的期望值等于总体平均数 样本平均数的方差等于总体方差除以样本容量,抽样平均数的标准差反映所有的样本平均数与总体平均数的平均误差,称为抽样平均误差,用 表示:,即对于不重复抽样而言: 样本平均数的期望值等于总体平均数 样本平均数的方差等于总体方差与 的乘积,样本平均数的抽样平均误差不重复抽样,总体成数p是具有某种特征的单位在总体中的比重。成数是一个特殊平均数。 设总体单位总数目为N,具有该特征的单位数为 ,设X为0-1变量(总体单位具有该属性则X取1,否则取0)则有:,样本成数的抽样平均误差-重复抽样,现从总体中

9、抽取n个单位,如果其中具有相应特征的单位数为n1,则样本成数是: P是一个R.V.,利用样本平均数的抽样误差结论有:,样本成数的抽样平均误差不重复抽样,抽样均值及误差总结,*抽样分布概念 由样本统计量的全部可能取值和与之相应的概率组成的分配数列。 重复抽样分布,定理1: 前提条件:如果由n个单位构成的随机样本来自于一个平均数为 ,方差为 的正态分布总体 结论:则样本平均数 也服从正态分布,该分布的数学期望值为 ,方差为 即: 服从标准正态分布。,例:某公司1000名职工年终奖近似服从正态分布,人均为2000元,标准差为500元,随机抽取36人作为样本进行调查,问样本的人均年终奖在1900-22

10、00元之间的概率有多大? 解:根据题意知:,练:一图书馆每天平均登记320本书,假定标准差是75本,考虑30天为一个样本,问:样本均值在300本道330本之间的概率是多少? 解:,2.中心极限定理,中心极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布。,一个任意分布的总体,2010年,抽样分布与总体分布的关系,总体分布,正态分布,非正态分布,样本均值 正态分布,样本均值 正态分布,样本均值 非正态分布,大样本,小样本,1.假定四口之家旅行时日花销的总体均值为215.6元,标准差为50元,现选择49个家庭组

11、成一个简单随机样本。 说明样本均值的抽样分布; 这49个家庭组成的随机样本的样本均值在总体均值左右20元以内的概率是多少? 这49个家庭组成的随机样本的样本均值在总体均值左右10元以内的概率是多少?,解: 1.样本均值服从正态分布,即: 2.,3.,2.某车间工人用车床生产一关键零件,每月产量的平均数为75件,标准差为6件。如果你是一名月产量超过80件的生产能手,厂里打算从全车间随机抽取8名同事组成一个生产小组,任命你为组长。那这个小组平均每月每人产量超过80件的概率为多大?,解:,参数估计在统计方法中的地位,概念: 也叫抽样估计(抽样推断),即根据样本提供的信息,对总体的某些特征作出估计或推

12、断。 特点: 在逻辑上运用的是归纳推理而不是演绎推理; 在方法上运用的是不确定的概率估计方法,而不是确定的数学分析方法; 参数估计存在抽样误差,第三节 参数估计,估计量与估计值 (estimator & estimated value),估计量:用于估计总体参数的随机变量 如样本均值,样本比例, 样本方差等 例:样本均值就是总体均值 的一个估计量 参数用 表示,估计量用 表示 估计值:估计参数时计算出来的统计量的具体值 如果样本均值x =80,则80就是的估计值,根据对被估值的要求不同,通常有两种方法:,点估计:也称定值估计,直接以一个样本估计量来估计总体参数,当已知一个样本的观察值时,可得到

13、总体参数的一个估计值。,一、点估计,例:对某厂生产的一批电子元件的使用寿命进行检测,先从中随机抽取500只进行调查,得知其样本平均寿命为1950小时,样本的合格率为95%。我们可以推断,总体的平均寿命为1950小时,总体的合格率为95%。,点估计方法的优点是简便易行,原理直观,而主要缺点是没有解决参数估计的精确度和可靠性问题; 一般只适用于对推断准确性程度和可靠性要求不高的情况。,无偏性 有效性 一致性,评价估计量的标准,无偏性(unbiasedness),无偏性:估计量抽样分布的数学期望等于被 估计的总体参数,A,B,有效性(efficiency),有效性:对同一总体参数的两个无偏点估计量,

14、有更小标准差的估计量更有效,A,B,的抽样分布,的抽样分布,P( ),一致性(consistency),一致性:随着样本量的增大,估计量的值越来越接近被估计的总体参数,例:设总体 , 为X的一个样本,则下面四个关于均值的无偏估计量中最有效的一个是( ) A. B. C. D.,D,概念: 即估计总体参数的区间范围,并给出区间估计成立的概率值。 其中:1-(01)称为置信度; 是区间估计的显著性水平,通常取为1%、5%和10%。,二、区间估计,置信区间,置信下限,置信上限,样本统计量 (点估计),区间1,区间2,区间3,区间4,1. 将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数

15、所占的比例,也称置信度 2. 表示为 (1- 为是总体参数未在区间内的比例 3. 常用的置信水平值有 99%, 95%, 90% 相应的 为0.01,0.05,0.10,置信水平(confidence level),置信区间表达了区间估计的精确度; 置信概率表达了区间估计的可靠性,它是区间估计的可靠概率; 显著性水平表达了区间估计的不可靠概率 例如=0.01或1%,表示总体指标在置信区间内,平均100次有1次会产生误差。,方差已知 方差未知判断样本容量,置信区间,置信下限,置信上限,样本均值,如何构造区间?,以样本均值为例,构造总体均值置信度为1-a的区间,极限误差 抽样平均误差 抽样分布及置

16、信度,标准正态分布表的使用,Z,a/2=0.025,a/2=0.025,F(z)=1-a/2,开始查表:当a=0.05时,z=?,z,-z,F(z)=0.9750,z=1.96,2 已知,(总体方差)2 未知,均 值,置 信 区 间,区间估计计算步骤,总体均值的区间估计(正态总体、方差已知或非正态总体大样本),1.假定条件 总体服从正态分布,且方差() 已知 如果不是正态分布,可由正态分布来近似 (n 30) 2.使用正态分布统计量z,3.总体均值 在1- 置信水平下的置信区间为:,例1:设某种油漆的9个样品,其干燥时间分别为(以小时计):6,5.7,5.8,6.5,7,6.3,5.6,6.1,5。已知干燥时间总体服从正态分布,且 小时,求 的置信度为9

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 总结/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号