统计学原理chart4

上传人:j****9 文档编号:54889381 上传时间:2018-09-21 格式:PPT 页数:64 大小:884KB
返回 下载 相关 举报
统计学原理chart4_第1页
第1页 / 共64页
统计学原理chart4_第2页
第2页 / 共64页
统计学原理chart4_第3页
第3页 / 共64页
统计学原理chart4_第4页
第4页 / 共64页
统计学原理chart4_第5页
第5页 / 共64页
点击查看更多>>
资源描述

《统计学原理chart4》由会员分享,可在线阅读,更多相关《统计学原理chart4(64页珍藏版)》请在金锄头文库上搜索。

1、抽样:从总体抽取部分单位,并进行实际调查, 以推断总体。 为什么需要抽样: 1) 总体无法得到; 2) 时间成本不允许; 3) 实验具有破坏性。,第四章 抽样与抽样分布,第一节 样本空间、事件及其概率,1、随机现象、确定现象,在相同条件下重复同样的过程所得结果不确定的现象称为随机现象。 与随机现象相对应的是确定现象。所谓确定现象,是指在一定的条件下,其结果能够明确预见的现象。,2、随机试验,为掌握随机现象的统计规律,需要对随机现象进行大量的观察或实验,这种观察的过程叫随机实验,严格意义上随机实验必须满足以下三个条件:实验可以在相同的条件下重复进行;实验的所有可能结果是明确可知的;每次试验之前不

2、能肯定那一个结果会出现。 然而对于许多随机现象的观察,不一定能完全满足上述三个条件,这时可以从广义的角度上理解随机试验,凡是从某一研究目的出发,对随机现象的观察均称为随机实验,简称实验。,3、样本空间、样本点,样本空间 设试验有n个可能结果,分别记为 (i=1,2,n)。集合 称为样本空间,其中的元素就是样本点。,4、随机事件及其概率,在随机试验中,可能出现也可能不出现的结果,被称为随机事件,简称事件。 事件的概率:实验中出现该事件的可能性大小。通常用该事件中所有样本点个数m与样本空间所有样本个数n之比来计算,即,第二节 随机变量的概率分布,一、随机变量的概念,1.概念随机事件的数量表现就称为

3、随机变量。例如: 投掷两枚硬币出现正面的数量;从班 级同学中抽10个,抽中女生的人数。 2.分类离散型随机变量:取值都可以逐个列举。连续型随机变量:取数轴上某一区间内的任意点,不可以逐个列举。,二、离散型随机变量的概率分布,1. 离散型随机变量X的所有可能取值及其取这些值的概率按顺序排列起来就形成概率分布。 2. 通常用下面的表格来表示,三、连续型随机变量的概率分布, 连续型随机变量取任何一个特定的值的概率都等于0,所以不能列出每一个值及其相应的概率,通常研究它取某一区间值的概率。 连续型随机变量的概率可以用分布函数F(x)来表示。 密度函数f(x)表示随机变量X在点x上的概率密度,通常把密度

4、函数的图形称为分布曲线。,分布函数与密度函数的图示,1.密度函数曲线下的面积等于1 2.分布函数是曲线下小于 x0 的面积,数学期望,定义: 或 对期望的解释:1) 以概率作为频率的加权平均值2) 概率分布的中心3) 长期重复的平均值4) 一场博弈的公平值5) 得到随机变量的总体的平均值,四、随机变量的数学特征,方差,定义: 或对方差的解释1) 与平均值偏差的平方的加权平均值 2) 概率分布的离散程度3) 博弈的“风险”,第三节 抽样分布,一、抽样的几个基本概念,总体分布 样本分布(个体分布) 抽样分布,1、总体分布:总体中所有个体关于某个变量(标志)的取值所形成的频数分布 。例如:我们想研究

5、去年全国高考语文的考试情况,把去年全国参加高考的所有考生的语文分数拿来制作一个频数分布,这个分布就是总体分布。,总体参数。,用以反映总体分布的数量特征的指标就是总体的参数,也叫总体指标,总体指标是客观存在的,唯一确定的,但又是未知的,也即是抽样统计推断的对象。常见的总体参数有:总体的平均数指标 ,总体成数P(比重)指标,总体分布的方差 ,标准差 等。它们是反映总体分布特征的重要指标。,2、样本分布:样本内所有个体关于某个变量(标志)的取值所形成频数分布。 例如,从去年全国参加高考的考生中随机抽出一个100人构成一个样本,这个样本的语文分数的频数分布就是样本分布。,样本统计量。,反映样本分布特征

6、的指标叫样本统计量 ,又称样本指标或估计量。常见的样本统计量有样本平均数X、样本比例(也称样本成数)p,样本方差 或样本标准差S,样本统计量不含未知参数,它是一个随机变量。统计量用来估计总体参数,因此与总体参数相对应。,总体参数和样本统计量,总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。 样本统计量:根据样本分布计算的指标。是随机变量,3、抽样分布: 样本统计量(样本指标)所有可能值的概率分布。 例如,为了考察平均数的概率分布,我们每次都抽取容量为100的样本,计算一个平均数,把样本放回去后再抽取一个容量为100的样本,计算一个平均数。假定我们就这样反复地进行抽样和计算,获得了许多

7、有关样本平均数的数据。由容量为100的一切可能样本的平均数所形成的概率分布,就是平均数的抽样分布。,二、重复抽样与不重复抽样,抽样方法,抽样方法有重复抽样与不重复抽样。 1、重复抽样。重复抽样是指从总体中抽出一个样本单位,记录其标志值后,又将其放回总体中继续参加下一轮样本单位的抽取。,2、不重复抽样。不重复抽样亦称不重置抽样,即每次从总体中抽取一个单位,登记其标志值后不再返回原总体中,不参加下一轮抽样,下一个样本单位继续从总体余下的单位中抽取。,三、抽样分布,主要样本 统计量,平均数 比率(成数) 方差,1、样本平均数的抽样分布,(一)重复抽样分布,样本平均数的分布是总体中全部样本平均数的 可

8、能取值和与之相应的概率组成。下面用一个例子来说明该问题.,某班组5个工人的日工资为34、38、42、46、50元。,现用重置抽样的方法从5人中随机抽2个构成样本。共有52=25个样本。,样本平均数的均值、方差及标准差:,(二)两个重要结论: 1.重置抽样的样本平均数的平均数等于总体平均数,即 2.重置抽样的抽样平均数的标准差等于总体标准差除以样本单位数的平方根。即,抽样平均数的标准差反映所有的样本平均数与总体平均数的平均误差,又称为抽样平均误差(或抽样标准误差),即 用 表示。,样本抽样分布,原总体分布,这一等式可以看出两项重要事实:1、抽样平均误差比总体标准差小的多,仅为其 例如一个县的粮食

9、亩产高低悬殊,亩产标准差为 80公斤,如果随机抽取100亩求平均亩产,那么样 本平均亩产量的差异就显著减小,平均误差只及总体 亩产标准差的 ,即8公斤。所以用样本平均亩产来代表总体平均亩产是有效的.,2、抽样平均误差与总体标准差 成正比变化,而与样本容量n的平方根成反比变化。例如在同一个总体中,如果抽样单位数扩大原 来的4倍,则抽样平均误差就缩小一半,如果抽样 平均误差增加一倍,则样本单位数只需要原来的 1/4。,总体成数P是指具有某种特征的单位在总体中的 比重。在前面我们已经知道,成数是一个特殊平均 数,设总体单位总数目是N,总体中有该特征的单 位数是N1,则现从总体中抽出n个单位,如果其中

10、有相应特征的 单位数是n1,则样本成数是:,(三)总体成数的估计,成数p也是一个随机变量,利用样本平均数的分布性质结论,即有:,例题,已知某批零件的一级品率为80,现用重置抽样方法从中抽取100件,求样本一级品率的抽样平均误差。,三、不重置抽样分布,(一)样本平均数的分布,某班组5个工人的日工资为34、38、42、46、50元。,现用不重置抽样的方法从5人中随机抽2个构成样本。共有20个样本。,不重置抽样样本平均数的平均数、方差及标准差:,(二)两个重要结论:,1.不重置抽样分布虽然与重置抽样分布不同,但 它们的样本平均数的平均数仍等于总体平均 数,即: 2.抽样平均数的标准差也是反映样本平均

11、数与总体平均数的平均误差程度。 不重置抽样的抽样平均误差等于重置抽样的平均误差 乘以修正因子,n/N称为抽样比。,(三)不重置抽样样本成数的分布,抽样平均误差为:,对于(0,1)分布的总体,总体平均数为:,总体方差为:,从总体中抽取容量为n的样本,样本成数p的分布实质是样本平均数的分布。有:,抽样平均误差公式汇编,第四节 正态分布和正态逼近,一、正态分布 二、正态分布再生定理 三、中心极限定理四、抽样分布的正态逼近,一、正态分布,(一)正态分布概述: 1.定义 一个连续型随机变量X,如果其密度函数为那么我们称X服从参数为x和正态分布。 连续型随机变量的一种重要分布,它是统计推断 的基础,2.密

12、度函数f(x)的性质,(1)对称性;(2)非负性;(3)最大值;(4)拐点;,f (x),(5) x 和的意义;,(1)变动平均数 (2)变动标准差,改变分布中心位置; 表现为图形的平移。,(二)正态分布函数的标准化,1.标准正态分布定义数学期望为0,方差为1的正态分布,称为标 准正态分布。用N(0,1)来表示。标准正态分布其几何意义是将分布曲线的中 心移到原点,使得离差化为以为单位的相 对离差。,2.标准正态分布的特点:(1)分布的平均数(数学期望)为0; (2)分布的方差为1。 (3)密度函数为:(4)分布函数:,3.非标准正态分布标准化,(1)为什么要把不同的正态分布变换为具有相同参数的

13、标准正态分布:N(0,1)?为了计算的方便!计算服从标准正态分布的变量取 值在某个区间的概率只需查标准正态概率分布表(2)如何进行标准化?,标准正态分布表的两种形式:,-Z,形式1,f(x),x,形式2,在统计推断中,常常需要 (1)求随机变量Z距中心的绝 对值不超过z的概率。即变量落 在区间(z,z)的概率。 (2)给定F(z),求随机变量Z 距中心的距离z。,4.标准正态分布表的使用:,二、正态分布再生定理,的正态分布,三、中心极限定理,随着n 的增大而趋近于,大样本的平均数近似服从正态分布。,中心极限定理,大样本 n 30,小结: 正态分布再生定理:限定总体服从正态分布,对样本容量n无要求; 中心极限定理:总体分布可不为正态分布,甚至可以不知道总体的分布。要求样本单位数n很大( 至少n30 ),则样本平均数就趋近于正态分布。,四、抽样分布的正态逼近,正态逼近 应用于样本统计量取值某个区间的概率 总体分布类型不清楚时,只要样本容量相当大,就可以用正态分布来近似地估计样本平均数和样本成数取值某个区间的概率 一般认为, n30 时为大样本,抽样分布接近正态。,思考与练习(P130132),思考题: 4.6 4.7 4.11 4.12 4.13,练习题:4.224.24 4.25,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号