概率论第六章6-1－金锄头文库

资源描述

《概率论第六章6-1》由会员分享，可在线阅读，更多相关《概率论第六章6-1（42页珍藏版）》请在金锄头文库上搜索。

1、第六章,样本与统计量,引言,前面五章我们讲述了概率论的基本内容，随后的四章将讲述数理统计。数理统计是具有广泛应用的一个数学分支，它以概率论为理论基础，根据试验或现象得到的数据，来研究随机现象，对研究对象的客观规律性作出种种合理的估计和判断。,数理统计的内容包括：如何收集、整理数据资料；如何对所得到的数据资料进行分析研究，从而对所研究对象的性质、特点作出推断。后者就是我们所说的统计推断问题。本书只讲述统计推断的基本内容。,引言,随机变量及其所伴随的概率分布全面描述了随机现象的统计性规律。,概率论的许多问题中，随机变量的概率分布通常是已知的，或者假设是已知的，而一切计算与推理

2、都是在这已知是基础上得出来的。,但实际中，情况往往并非如此，一个随机现象所服从的分布可能是完全不知道的，或者知道其分布概型，但是其中的某些参数是未知的。,引言,例如：,某公路上行驶车辆的速度服从什么分布是未知的；,电视机的使用寿命服从什么分布是未知的；,产品是否合格服从两点分布，但参数合格率p是未知的；,数理统计的任务则是以概率论为基础，根据试验所得到的数据，对研究对象的客观统计规律性做出合理的推断。,从第六章开始，我们学习数理统计的基础知识。数理统计的任务是以概率论为基础，根据试验所得到的数据，对研究对象的客观统计规律性作出合理的推断.数理统计所包含的内容十分丰富，本书介绍其中

3、的参数估计、假设检验、方差分析、回归分析等内容.第六章主要介绍数理统计的一些基本术语、基本概念、重要的统计量及其分布，它们是后面各章的基础。,学习的基本内容,6,引言：数理统计学是一门关于数据收集、整理、分析和推断的科学。在概率论中已经知道，由于大量的随机试验中各种结果的出现必然呈现它的规律性，因而从理论上讲只要对随机现象进行足够多次观察，各种结果的规律性一定能清楚地呈现，但是实际上所允许的观察永远是有限的，甚至是少量的。例如：若规定灯泡寿命低于1000小时者为次品，如何确定次品率？由于灯泡寿命试验是破坏性试验，不可能把整批灯泡逐一检测，只能抽取一部分灯泡作为样本进行检验，

4、以样本的信息来推断总体的信息，这是数理统计学研究的问题之一。,总体研究对象全体元素组成的集合所研究的对象的某个(或某些)数量指标的全体,个体组成总体的每一个元素, 6.1 随机样本,容量总体中所包含个体的个数,有限总体容量为有限的总体,无限总体容量为无限的总体,例如考察某大学一年级男生的身高这一试验中，若一年级男生共2000人，每个男生的身高是一个可能观察值，所形成的总体中共有2000个可能的观察值，是一个有限总体。又如，考察某一湖泊中某种鱼的含汞量所得的总体也是有限总体。,观察并记录某一地点每天（包括以往、现在和将来）的最高气温，或者测量某一湖泊任一地点的深度，所得

5、的总体是无限总体。,有些有限总体，它的容量很大，我们可以认为它是一个无限总体。例如考察全国正在使用的某种型号灯泡的寿命所形成的总体，由于可能观察值的个数很多，就可以认为是无限总体。,我们对总体的研究就是对随机变量X的研究。X的分布函数和数字特征，分别称为总体的分布函数和数字特征。这样，一个总体对应于一个随机变量X。今后不再区分总体与相应的随机变量，笼统称为总体X。即如下：,我们所要研究的个体的某一个数量指标（例如男生的身高），它对总体中不同的个体来说取不同的值，既具有不确定性。我们自总体中随机取一个个体，观察它的数量指标的值，这就是一个随机试验。而数量指标X作为随机试验中被观察的量，它的

6、取值随试验结果而定，它是一个随机变量。,总体所研究的对象的某个(或某些)数量指标的全体,它是一个随机变量(或多维随机变量).记为X .,X 的分布函数和数字特征称为总体的分布函数和数字特征.,个体即总体的每个数量指标,可看作随机变量 X 的某个取值.用表示.,例如：我们检验自动生产线出来的零件是次品还是正品，用1表示产品为次品，用0表示产品为正品，设出现次品的概率为p,那么总体就是由一些具有数量指标为1和一些具有数量指标为0的个体所组成。这个总体对应于一个参数为p的0-1分布，我们就将它说成是0-1分布的总体。,样本从总体中抽取的部分个体.,用(X1,X2,Xn)表示, n为样本容量。

7、称(x1,x2,xn)为总体X 的一个容量为n的样本观测值,或称样本的一个实现.,所谓从总体中抽取一个个体，就是对X进行一次观察并记录其结果，我们在相同的条件下对总体X进行n次重复的、独立的观察，并将n次观察结果按试验的次序记为X1,X2,Xn，由于X1,X2,Xn是对随机变量X观察的结果，各次观察是在相同的条件下独立进行的，所以有理由认为X1,X2,Xn是相互独立的，且都是与X具有相同分布的随机变量。,若总体 X 的样本满足:,与有相同的分布,(2) 相互独立,则称为简单随机样本，简称样本。,简单随机样本,样本的观察值称为样本值。,样本的两重性： 1、在泛指任一次抽取的结果时， X

8、1,X2,Xn表示n个随机变量（样本） 2、在具体的依次抽取之后， X1,X2,Xn表示n个具体的数值（样本值）。,在数理统计中，有意义的样本容量一般要求n50才有统计意义。,一般,对有限总体,放回抽样所得到的样本为简单随机样本,但使用不方便,常用不放回抽样代替.而代替的条件是,N / n 10.,设总体 X 的分布函数为F (x),则样本(X1,X2Xn),若总体X 的概率密度为为 f( x),则样本的联合概率密度为,的联合分布函数为,例如设某批产品共有N 个,其中的次品数为M, 其次品率为,若 p 是未知的,则可用抽样方法来估计它.,X 服从参数为p 的0-1分布,可用如下表示方法:,

9、从这批产品中任取一个产品,用随机变量 X来描述它是否是次品:,设有放回地抽取一个容量为 n 的样本,的联合分布为,其样本值为,样本空间为,若抽样是无放回的,则前次抽取的结果会影响后面抽取的结果.例如,所以, 当样本容量 n 与总体中个体数目N 相比很小时, 可将无放回抽样近似地看作放回抽样.,样本是统计推断的依据，但在实际问题中，往往不是直接使用样本本身，而是针对不同的问题构造不同的样本函数，利用这种样本的函数进行统计推断。,统计量,设是取自总体X 的一个样本,且不含有未知参数,称,统计量,则,例如：设是服从正态总体中抽取的一个样本，其中为已知参数, 为未知参数，,是统计量,不是

10、统计量,几个常用的统计量,样本均值（sample mean),设是总体的一个样本，,样本方差(sample variance),描述数据分布的离散程度。,描述数据分布的中心位置。,样本均方差或标准差,它们的观测值用相应的小写字母表示.,几个常用的统计量,设是总体的一个样本，,样本K阶原点矩,几个常用的统计量,设是总体的一个样本，,样本K阶中心矩,例1 从一批机器零件毛坯中随机地抽取10件, 测得其重量为(单位: 公斤): 210, 243, 185, 240, 215, 228, 196, 235, 200, 199 求这组样本值的均值、方差、二阶原点矩与二阶中心矩.,解,令,则,

11、定义设为随机变量，若存在，则称为的阶原点矩，记作；,样本的阶原点矩，记作,阶矩的概念,结论：,原因：,作用：,矩估计法的理论依据,它包括两个方面数据整理计算样本特征数,数据的简单处理,为了研究随机现象，首要的工作是收集原始数据.一般通过抽样调查或试验得到的数据往往是杂乱无章的，需要通过整理后才能显示出它们的分布状况。,数据的简单处理是以一种直观明了方式加工数据。,计算样本特征数：,数据的简单处理,（1）反映趋势的特征数,样本均值,中位数：数据按大小顺序排列后，位置居中的那个数或居中的两个数的平均数。,众数：样本中出现最多的那个数。,数据的简单处理,（2）反映分散程度的特征数

12、：极差、四分位差,极差样本数据中最大值与最小值之差，,四分位数将样本数据依概率分为四等份的3个数椐，依次称为第一、第二、第三四分位数。,第一四分位数Q1：,第二四分位数Q2：,第三四分位数Q3：,例1 为对某小麦杂交组合F2代的株高X进行研究，抽取容量为100的样本，测试的原始数据记录如下(单位：厘米)，试根据以上数据，画出它的频率直方图，求随机变量X的分布状况。 87 88 111 91 73 70 92 98 105 94 99 91 98 110 98 97 90 83 92 88 86 94 102 99 89 104 94 94 92 96 87 94 92 86 102 88 7

13、5 90 90 80 84 91 82 94 99 102 91 96 94 94 85 88 80 83 81 69 95 80 97 92 96 109 91 80 80 94 102 80 86 91 90 83 84 91 87 95 76 90 91 77 103 89 88 85 95 92 104 92 95 83 86 81 86 91 89 83 96 86 75 92,第一整理原始数据，加工为分组资料，作出频率分布表，画直方图，提取样本分布特征的信息.步骤如下：,1.找出数据中最小值m=69，最大值M=111，,2.数据分组，根据样本容量n的大小，决定分组数k。,一般规律

14、 30n40 5k6 40n60 6k8 60n100 8k10 100n500 10k20,现取区间67.5,112.5,它能覆盖区间69,111,数据分组数参考表,本例取组数k=9.,一般采取等距分组（也可以不等距分组），组距为,3确定组限,小区间的端点称为组限。,分组如下：,67.5,72.5) 72.5,77.5) 77.5,82.5) 82.5,87.5) 87.5,92.5) 92.5,97.5) 97.5,102.5) 102.5,107.5) 107.5,112.5),4将数据分组，计算出各组频数，作频数、频率分布表,数出落在每个小区间内的数据的频率fk,算出频率fk/n (n

15、=100,i=1,29).如下表,这样的图形叫频率直方图,5.作出频率直方图,以样本值为横坐标，频率/组距为纵坐标；,现在自左至右依次做以分组区间为底，以频率/组距为高的小矩形，如图。,从频率直方图可看到：靠近两个极端的数据出现比较少，而中间附近的数据比较多，即中间大两头小的分布趋势，随机变量分布状况的最粗略的信息。,在频率直方图中，每个矩形面积恰好等于样本值落在该矩形对应的分组区间内的频率、,频率直方图中的小矩形的面积近似地反映了样本数据落在某个区间内的可能性大小，故它可近似描述X的分布状况。,样本方差样本标准差 Q1 Q3 极差四分位差 68.6909 8.288 85.25 95 42 4.875,第二计算样本特征数,1.反映集中趋势的特征数：样本均值、中位数、众数等,样本均值MEAN 中位数MEDIAN 众数,2.反映分散程度的特征数：样本方差、样本标准差、极差、四分位差等,上述差异特征统计量的值越小，表示离散程度越小.,MTB set c1 DATA 87 88 111 91 73 70 92 98 105 94 99 91 98 DATA 110 98 97 83 90 83 92 8

展开阅读全文