中国矿业数理统计课件

资源描述

《中国矿业数理统计课件》由会员分享，可在线阅读，更多相关《中国矿业数理统计课件（106页珍藏版）》请在金锄头文库上搜索。

1、第二章数理统计的基本概念,2.1 引言 2.2 总体、样本与统计模型 2.3 统计量和抽样分布 2.4 2分布、t分布和F分布 2.5 次序统计量 2.6 描述性统计分析总体特征的识别,2.1 引言,数理统计问题可以分为两大类：,如何科学地安排试验，以获取有效的随机数据。描述统计学。如：试验设计、抽样方法。研究如何分析所获得的随机数据，对所研究的问题进行科学的、合理的估计和推断，尽可能地为采取一定的决策提供依据，作出精确而可靠的结论. 推断统计学。如：参数估计、假设检验等。,2.1 引言,应用数理统计方法解决实际问题的基本步骤：（1）确定研究对象、研究目的；（2）数据收集与整理；

2、（3）数据分析；（4）应用数据分析结果解决实际问题。,2.2总体、样本与统计模型,1.总体,研究对象的某项数量指标值的全体称为总体。,总体中每个研究对象(元素)称为样本。,例如：咱们班男生的身高；人的体温；徐州地区下个月的气温；徐州地区下个月的降雨量； ,总体,有限总体,无限总体,总体可以用一个随机变量 X 及其分布来描述。,此总体就可以用随机变量X或其分布函数,例如，研究某批灯泡的寿命时，,这批灯泡中每个,灯泡的寿命是我们所关心的指标.,表示.,2.样本,样本：在总体中抽取的部分个体。,样本容量：样本中所含个体的数目n。,定义为了准确地进行判断，对抽样有所要求：, 代表性：样本的每

3、个分量,与总体X 有相同的,分布函数；, 独立性：,为相互独立的随机变量，,满足以上条件的样本,称为来自总体,X 的容量为n 的一个简单随机样本（简称样本）。,样本的一次具体实现,称为样本值。,联合分布函数为,联合概率密度为,2.3 统计量和抽样分布,定义1 设,是来自总体X 的一个样本，,为一实值连续函数，,其不包含任何,未知参数，则称,为一个统计量。,为,的观测值。,注：,仍为随机变量。,是一个数。,例如总体,是一个样本，,则,均为统计量。,均不是统计量。,均为统计量。,几个常用的统计量,1.样本均值,2.样本方差,设,是来自总体X 的一个样本，,3. 样本标准差,4.样本k 阶原点矩,

4、5.样本k 阶中心矩,它们的观察值分别为：,其样本为,例2 设总体X 服从参数为的泊松分布，X的样本为,求,例1 设总体X 的数学期望和方差分别为,是来自总体,例3,设,的一样本,总,体,的,阶矩,存在，证明,(1),(2),证,由辛钦大数定律，知,2.4 几个常用的分布,记为,定义设,相互独立, 都服从正态,分布N (0,1), 则称随机变量,所服从的分布为自由度为 n 的,分布.,分布,1.,分布的概率密度为,其中伽玛函数,定理1,证明当x0时，依定义有,作球坐标变换,其中,该变换的Jacobi行列式为,其中,是,的函数，与r无关,其中,由,得,显然，当x0时，,所以的概率密度为,相

5、互独立, 都服从标准正态,证明,例1 设,分布,证明因为,所以,又 X1, X2 , , Xn 相互独立，,也相互独立。,且 X1,X2 相,这个性质叫分布的可加性。,（1）设,互独立，则,分布的性质,E(X)=n, D(X)=2n,(2) 若,证明,则,所以,则,c 2 分布的分位点,称满足条件,分位点.,为,分布的上,的点,对于给定的正数,记作 Tt (n)。,所服从的分布为自由度为 n 的 t 分布.,设XN(0,1) ,Y,则称变量, 且X与Y相互独立，,2. t 分布,t 分布的概率密度为,（1）设Tt(n)，则,（2）t 分布的概率密度关于x = 0 对称,t 分布的性质,

6、E(T) = 0, D(T) = n / (n-2), n 2,当 n 充分大时，其图形类似于标准正态分布,概率密度的图形。,但对于较小的 n，t 分布与N (0,1) 分布相差,很大。,（3） t 分布的分位点,对于给定的正数,，称满足条件,分位点。,为,分布的上,的点,设,X与Y相互独立，则称,服从自由度为,3.F 分布,n1及 n2 的F分布，,记作 F F ( n1,n2)。,(2) 若X F(n1,n2)，则,n2 2,(1) 由定义可知，, F(n2,n1),性质,n2 4,(3) F 分布的分位点,对于给定的正数,称满足条件,分位点.,分布的上,的点,为,证明: 设,由定义,又因

7、为,故,例1 设总体X , Y 相互独立,其样本为,试求统计量,服从什么分布？,解由已知得,所以,例2 设总体X 服从正态分布,，其样本为,解由已知得,所以,故,例3 已知总体X 服从自由度为n 的 t 分布，求证：,解由已知得,其中,故,所以,还能得,2.5 正态总体的统计量的分布,1. 单个正态总体的统计量的分布,定理 1,设 X1, X2 , , Xn 是取自正态总体,的样本，,分别为样本均值和样本方差，则有,相互独立,定理2 设总体X 服从正态分布,是X 的样本，,分别为样本均值和样本方差，则有,证明因为,是样本,的线性组,合，故,，标准化后可得,又因为,相互独立，所以,也相互

8、独立，则由t 分布的定义得,2. 两个正态总体的统计量的分布,定理 3,设 X1, X2 , , Xn1 与Y1, Y2 , , Yn2分别是来自,正态总体,的样本，并且这两个样,本相互独立，记,则有, 当,时,其中,例4 设总体X 服从正态分布,，其样本为,解由已知得,，得,例5 设总体X 服从正态分布,，其样本为,解由已知得,查表,例6 设总体X 服从正态分布,，其样本为,解因为,例7 设总体X 服从正态分布,，其样本为,解由已知得,所以,标准化得,又因为,故,例8 设总体X , Y 相互独立,其样本为,试求以下概率,解由已知得,则,所以,例9,一个样本，求,(1),(2),由定

9、理 2 知,解,例9,一个样本，求,(1),(2),查表可得,2.5 次序统计量,称为样本,的次序统计量.,特别地，,注,说明:,定理1 设独立同分布，,为其次序统计量，则,若F(x)具有概率密度f(x)，则 X(k)的概率密度为,例,解,样本的分布,1）样本的频数分布,将n个样本值,按从小到大排列，把相同,的数合并，并指出其频数（样本中各数出现的次数）,2）样本的经验分布函数,样本值,样本值小于或等于x的个数，作,样本的经验分布函数,给出了在n次独立重复试验中，事件,出现的频率，具有分布函数的一切性质。如：,非降，右连续；,由频数分布知,若样本为n维r.v，那么对于每一样本值,就可作一个经

10、验分布函数，故,是随机变量,-n次独立重复试验中，事件,发生的频率。,由伯努利大数定律，,这就是我们可以由样本推断总体的基本理论依据.,格列汶科进一步证明了：当n时，Fn(x)以概率1关于x一致收敛于F(x)，即,这就是著名的格列汶科定理.,定理告诉我们，当样本容量n足够大时，对所有的x, Fn(x)与F(x)之差的绝对值都很小，这件事发生的概率为1.,2.6 描述性统计分析总体特征的识别,2.6.1 描述统计量,1、中心位置的描述,2、变异性的描述,3、样本偏度系数和峰度系数,所谓描述性统计分析，就是对一组数据的各种特征进行分析，以便于描述测量样本的各种特征及其所代表的总体的特征。描述性统

11、计分析的项目很多，常用的如平均数、标准差、中位数、极差、偏态程度等等。这些分析是复杂统计分析的基础。,数据分布的特征,数据分布特征的测度,1.中心位置的描述,（1）分类数据：众数（2）顺序数据：中位数和分位数（3）数值型数据：均值（4）众数、中位数和均值的比较,（1）众数(mode),出现次数最多的变量值不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据，也可用于顺序数据和数值型数据,众数 (不唯一性),无众数原始数据: 10 5 9 12 6 8,一个众数原始数据: 6 5 9 8 5 5,多于一个众数原始数据: 25 28 28 36 42 42,（2）

12、中位数(median),排序后处于中间位置上的值,不受极端值的影响主要用于顺序数据，也可用数值型数据，但不能用于分类数据各变量值与中位数的离差绝对值之和最小，即,样本中位数,定义,其观测值为,（3）数值型数据的中位数 (9个数据的算例),【例】：9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排序: 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8 9,中位数 1080,（4）数值型数据的中位数 (10个数据的算例),【例】：10个家庭的人均月

13、收入数据排序: 660 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8 9 10,（5）四分位数(quartile),排序后处于25%和75%位置上的值,不受极端值的影响主要用于顺序数据，也可用于数值型数据，但不能用于分类数据,数值型数据的四分位数(9个数据的算例),【例】：9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排序: 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5

14、6 7 8 9,数值型数据的四分位数 (10个数据的算例),【例】：10个家庭的人均月收入数据排序: 660 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8 9 10,均值(mean),集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据，不能用于分类数据和顺序数据,简单均值与加权均值,设一组数据为： x1 ，x2 ，，xn 各组的组中值为：M1 ，M2 ，，Mk 相应的频数为： f1 ， f2 ，，fk,简单均值,加权均值,已改至此！,加权均值 (例题分析)

15、,加权均值 (权数对均值的影响),甲乙两组各有10名学生，他们的考试成绩及其分布数据如下甲组：考试成绩（x ）: 0 20 100 人数分布（f ）：1 1 8 乙组：考试成绩（x）: 0 20 100 人数分布（f ）：8 1 1,均值 (数学性质),1. 各变量值与均值的离差之和等于零,2. 各变量值与均值的离差平方和最小,2、变异性的描述,数据分布的另一个重要特征反映各变量值远离其中心值的程度（离散程度）从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值,四分位差 (quartile deviation),对顺序数据离散程度的测度也称为内距或四分间距上四分位数与下四分位数之差 QD = QU QL 反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性,极差(range),一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布,R = max(xi) - min(xi),计算公式为,方差和标准差 (variance and standard deviation)

展开阅读全文