数理统计学+基本概念

上传人:F****n 文档编号:88409289 上传时间:2019-04-26 格式:PPTX 页数:66 大小:789.32KB
返回 下载 相关 举报
数理统计学+基本概念_第1页
第1页 / 共66页
数理统计学+基本概念_第2页
第2页 / 共66页
数理统计学+基本概念_第3页
第3页 / 共66页
数理统计学+基本概念_第4页
第4页 / 共66页
数理统计学+基本概念_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《数理统计学+基本概念》由会员分享,可在线阅读,更多相关《数理统计学+基本概念(66页珍藏版)》请在金锄头文库上搜索。

1、数理统计学,研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征。,研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。,第六章 数理统计的基本概念,参数估计 (第七章),假设检验 (第八章),回归分析 (第九章),方差分析 (第九章),推断 统计学,第六章 统计量及其分布,6.1 总体与样本 6.2 样本数据的整理与显示 6.3 统计量及其分布 6.4 三大抽样分布,例6.0.1 某公司要采购一批产品,每件产品不 是合格品就是不合格品

2、,但该批产品总有一 个不合格品率 p 。 由此,若从该批产品中随机抽取一件,用 x 表示这一批产品的不合格数,不难看出 X 服从一个二点分布B(1 , p). 但分布中的参数 p 是不知道的。一些问题:,p 的大小如何;,p 大概在什么范围内;,能否认为 p 满足设定要求 (如 p 0.05)。,总体 研究对象全体元素组成的集合 总体的三层含义: 1.研究对象的全体 2.数据 3.分布, 6.1 总体与个体,6.1,例6.1.1 考察某厂的产品质量,以0记合格品,以1记不合格品,则 总体 = 该厂生产的全部合格品与不合格品 = 由0或1组成的一堆数 若以 p 表示这堆数中1的比例(不合格品率)

3、,则该总体可由一个二点分布表示:,比如:两个生产同类产品的工厂的产品的总体 分布:,样本 从总体中抽取的部分个体.,称 为总体 X 的一个容量为n的样本观测值,或称样本的一个实现.,用 表示, n 为样本容量.,个体 组成总体的每一个元素,样品、样本、样本量:,样本具有两重性,一方面,由于样本是从总体中随机抽取的,抽 取前无法预知它们的数值,因此,样本是随机 变量,用大写字母 X1, X2, , Xn 表示;,另一方面,样本在抽取以后经观测就有确定的 观测值,因此,样本又是一组数值。此时用小 写字母 x1, x2, , xn 表示是恰当的。,例6.1.2 啤酒厂生产的瓶装啤酒规定净含量为640

4、 克。由于随机性,事实上不可能使得所有的啤酒 净含量均为640克。现从某厂生产的啤酒中随机 抽取10瓶测定其净含量,得到如下结果: 641, 635, 640, 637, 642, 638, 645, 643, 639, 640,这是一个容量为10的样本的观测值, 对应的总体为该厂生产的瓶装啤酒的净含量。,这样的样本称为完全样本。,例6.1.3 考察某厂生产的某种电子元件的 寿命,选了100只进行寿命试验,得到 如下数据:,表6.1.2 100只元件的寿命数据,表5.1.2中的样本观测值没有具体的数值, 只有一个范围,这样的样本称为分组样本。,寿命范围 元件数 寿命范围 元件数 寿命范围 元件

5、数 ( 0 24 4 (192 216 6 (384 408 4 (24 48 8 (216 240 3 (408 432 4 (48 72 6 (240 264 3 (432 456 1 (72 96 5 (264 288 5 (456 480 2 (96 120 3 (288 312 5 (480 504 2 (120 144 4 (312 336 3 (504 528 3 (144 168 5 (336 360 5 (528 552 1 (168 192 4 (360 184 1 552 13,独立性: 样本中每一样品的取值不影响其它样品的取值 - X1, X2, , Xn 相互独立。,

6、要使得推断可靠,对样本就有要求,使样本能很好地代表总体。通常有如下两个要求:,随机性: 总体中每一个个体都有同等机会 被选入样本 - Xi 与总体X有相同的分布。 -也称代表性,同分布性。,样本的要求:简单随机样本,若总体 X 的样本 满足:,一般,对有限总体,放回抽样所得到的样本为简单随机样本,但使用不方便,常用不放回抽样代替.而代替的条件是,(1) 与X 有相同的分布,(2) 相互独立,则称 为简单随机样本.,简单随机样本,N / n 10.,设总体 X 的分布函数为F (x),则样本,若总体X 的密 d.f.为 f( x),则样本,的联合 d.f.为,的联合分布函数为,6.2.1 经验分

7、布函数,6.2 样本数据的整理与显示,设 X1, X2, , Xn 是取自总体分布函数为F(x)的样本,若将样本观测值由小到大进行排列,为 x(1), x(2), , x(n),则称 X(1), X(2), , X(n) 为有序样本, 用有序样本定义如下函数,大数定律的应用,则Fn(x)是一非减右连续函数,且满足,Fn() = 0 和 Fn() = 1,由此可见,Fn(x)是一个分布函数, 并称Fn(x)为经验分布函数。,例6.2.1 某食品厂生产听装饮料,现从生产线上 随机抽取5听饮料,称得其净重(单位:克) 351 347 355 344 351,x(1)= 344, x(2)= 347,

8、 x(3)= 351, x(4)= 354, x(5)= 355,这是一个容量为5的样本,经排序可得有序样本:,其经验分布函数为,由伯努里大数定律: 只要 n 相当大,Fn(x)依概率收敛于F(x) 。,0 , x 344 0.2, 344 x 347 Fn(x) = 0.4, 347 x 351 0.8, 344 x 347 1, x 355,更深刻的结果也是存在的,这就是格里纹科定理。,定理6.2.1(格里纹科定理) 设X1,X2,Xn是取自 总体分布函数为F(x)的样本, Fn(x) 是其经验分 布函数,当n时,有,PsupFn(x) F(x)0 = 1,格里纹科定理表明:当n 相当大时

9、,经验分布函数是总体分布函数F(x)的一个良好的近似。 经典的统计学中一切统计推断都以样本为依据,其理由就在于此。,6.2.2 频数-频率分布表,样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表。,例6.2.2 为研究某厂工人生产某种产品的能力, 我们随机调查了20位工人某天生产的该种产品 的数量,数据如下,(1) 对样本进行分组:作为一般性的原则,组数通 常在520个: K=1+3.3log(n),(2) 确定每组组距:近似公式为 组距d = (最大观测值 最小观测值)/组数;,(3) 确定每组组限: 各组区间端点为 a0, a1=a0+d, a2=a0

10、+2d, , ak=a0+kd, 形成如下的分组区间-含下不含上 a0 , a1) , a1, a2), , ak-1 , ak),对这20个数据(样本)进行整理,具体步骤如下:,其中a0 略小于最小观测值, ak 略大于最大观测值.,(4) 统计样本数据落入每个区间的个数频数, 并列出其频数频率分布表。,表6.2.1 例6.2.2 的频数频率分布表,组序 分组区间 组中值 频数 频率 累计频率(%) 1 147,157) 152 3 0.15 15 2 157,167) 162 9 0.45 60 3 167,177) 172 5 0.25 85 4 177,187) 182 2 0.10

11、95 5 187,197) 192 1 0.05 100 合计 20 1,6.2.3 样本数据的图形显示,一、直方图,直方图是频数分布的图形表示,它的横坐标表示所关心变量的取值区间,纵坐标有三种表示方法:频数,频率,最准确的是频率/组距,它可使得诸长条矩形面积和为1。凡此三种直方图的差别仅在于纵轴刻度的选择,直方图本身并无变化。,把每一个数值分为两部分,前面一部分(百位和十位)称为茎,后面部分(个位)称为叶,然后画一条竖线,在竖线的左侧写上茎,右侧写上叶,就形成了茎叶图。如:,二、茎叶图,数值 分开 茎 和 叶 112 11 | 2 11 和 2,例5.2.3 某公司对应聘人员进行能力测试,测

12、试 成绩总分为 150分。下面是50位应聘人员的测 试成绩(已经过排序):,我们用这批数据给出一个茎叶图,见下页。,图5.2.3 测试成绩的茎叶图,在要比较两组样本时, 可画出它们的背靠背的茎叶图。,注意:茎叶图保留数据中全部信息。当样本量较 大,数据很分散,横跨二、三个数量级时, 茎叶图并不适用。,6.3.1 统计量与抽样分布,6.3 统计量及其分布,当人们需要从样本获得对总体各种参数的认识时,最好的方法是构造样本的函数,不同的函数反映总体的不同特征。,定义6.3.1 设 X1, X2, , Xn 为取自某总体的样 本,若样本函数T = T(X1, X2, , Xn)中不含有任 何未知参数。

13、则称T为统计量。统计量的分布 称为抽样分布。,设 是取自总体X 的一个样本,为一实值连续函数,且不含有未知参数,称,定义,例 是未知参数,若 , 已知,则为统计量,是一样本,是统计量, 其中,则,常用的统计量,为样本均值,为样本方差,为样本标准差,为样本的k 阶原点矩,为样本的k 阶中心矩,例如,(5) 顺序统计量与极差,为样本值,且,定义 r.v.,其中,(6)样本分位数与样本中位数,样本中位数也是一个很常见的统计量,它也是次序统计量的函数,通常如下定义:,更一般地,样本p分位数mp可如下定义:,通常,样本均值在概括数据方面具有一定的优势。但当数据中含有极端值时,使用中位数比使用均值更好,中

14、位数的这种抗干扰性在统计中称为具有稳健性。,(7) 五数概括与箱线图,次序统计量的应用之一是五数概括与箱线图。在得到有序样本后,容易计算如下五个值:,最小观测值 xmin= x(1) , 最大观测值 xmax=x(n) , 中位数 m0.5 , 第一4分位数 Q1 = m0.25, 第三4分位数 Q3 = m0.75.,所谓五数概括就是指用这五个数: xmin , Q1 , m0.5 , Q3 , xmax,来大致描述一批数据的轮廓。 R code:Summary(),boxplot(),注 样本方差 与样本二阶中心矩 的不同,故,推导,2),例1 从一批机器零件毛坯中随机地抽取10件, 测得其重量为(单位: 公斤): 210, 243, 185, 240, 215, 228, 196, 235, 200, 199 求这组样本值的均值、方差、二阶原点矩与二阶中心矩.,解,令,例1,则,例2 在总体 中,随机抽取一个容量 为36的样本,求样本均值 落在50.8到53.8 之间的概率.,解,故,例2,按照统计量定义:若 X1, X2, , Xn 为样本, 则 以及经验分布函数Fn(x)都是统计量。而当, 2 未知时,X1, X1/ 等均不是统计量。,尽管统计量不依

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号