中国矿业数理统计课件

上传人:F****n 文档编号:88368329 上传时间:2019-04-25 格式:PPT 页数:106 大小:1.99MB
返回 下载 相关 举报
中国矿业数理统计课件_第1页
第1页 / 共106页
中国矿业数理统计课件_第2页
第2页 / 共106页
中国矿业数理统计课件_第3页
第3页 / 共106页
中国矿业数理统计课件_第4页
第4页 / 共106页
中国矿业数理统计课件_第5页
第5页 / 共106页
点击查看更多>>
资源描述

《中国矿业数理统计课件》由会员分享,可在线阅读,更多相关《中国矿业数理统计课件(106页珍藏版)》请在金锄头文库上搜索。

1、第二章 数理统计的基本概念,2.1 引言 2.2 总体、样本与统计模型 2.3 统计量和抽样分布 2.4 2分布、t分布和F分布 2.5 次序统计量 2.6 描述性统计分析总体特征的识别,2.1 引言,数理统计问题可以分为两大类:,如何科学地安排试验,以获取有效的随机数据。 描述统计学。 如:试验设计、抽样方法。 研究如何分析所获得的随机数据,对所研究的问题进行科学的、合理的估计和推断,尽可能地为采取一定的决策提供依据,作出精确而可靠的结论. 推断统计学。如:参数估计、假设检验等。,2.1 引言,应用数理统计方法解决实际问题的基本步骤: (1)确定研究对象、研究目的; (2)数据收集与整理;

2、(3)数据分析; (4)应用数据分析结果解决实际问题。,2.2总体、样本与统计模型,1.总体,研究对象的某项数量指标值的全体称为总体。,总体中每个研究对象(元素)称为样本。,例如:咱们班男生的身高; 人的体温; 徐州地区下个月的气温; 徐州地区下个月的降雨量; ,总体,有限总体,无限总体,总体可以用一个随机变量 X 及其分布来描述。,此总体就可以用随机变量X或其分布函数,例如,研究某批灯泡的寿命时,,这批灯泡中每个,灯泡的寿命是我们所关心的指标.,表示.,2.样本,样本:在总体中抽取的部分个体。,样本容量:样本中所含个体的数目n。,定义 为了准确地进行判断,对抽样有所要求:, 代表性:样本的每

3、个分量,与总体X 有相同的,分布函数;, 独立性:,为相互独立的随机变量,,满足以上条件的样本,称为来自总体,X 的容量为n 的一个简单随机样本(简称样本)。,样本的一次具体实现,称为样本值。,联合分布函数为,联合概率密度为,2.3 统计量和抽样分布,定义1 设,是来自总体X 的一个样本,,为一实值连续函数,,其不包含任何,未知参数,则称,为一个统计量。,为,的观测值。,注:,仍为随机变量。,是一个数。,例如 总体,是一个样本,,则,均为统计量。,均不是统计量。,均为统计量。,几个常用的统计量,1.样本均值,2.样本方差,设,是来自总体X 的一个样本,,3. 样本标准差,4.样本k 阶原点矩,

4、5.样本k 阶中心矩,它们的观察值分别为:,其样本为,例2 设总体X 服从参数为的 泊松分布,X的样本为,求,例1 设总体X 的数学期望和方差分别为,是来自总体,例3,设,的一样本,总,体,的,阶矩,存在,证明,(1),(2),证,由辛钦大数定律,知,2.4 几个常用的分布,记为,定义 设,相互独立, 都服从正态,分布N (0,1), 则称随机变量,所服从的分布为自由度为 n 的,分布.,分布,1.,分布的概率密度为,其中伽玛函数,定理1,证明 当x0时,依定义有,作球坐标变换,其中,该变换的Jacobi行列式为,其中,是,的函数,与r无关,其中,由,得,显然,当x0时,,所以的概率密度为,相

5、互独立, 都服从标准正态,证明,例1 设,分布,证明 因为,所以,又 X1, X2 , , Xn 相互独立,,也相互独立。,且 X1,X2 相,这个性质叫 分布的可加性。,(1) 设,互独立,则,分布的性质,E(X)=n, D(X)=2n,(2) 若,证明,则,所以,则,c 2 分布的分位点,称满足条件,分位点.,为,分布的上,的点,对于给定的正数,记作 Tt (n)。,所服从的分布为自由度为 n 的 t 分布.,设XN(0,1) ,Y,则称变量, 且X与Y相互独立,,2. t 分布,t 分布的概率密度为,(1)设Tt(n),则,(2)t 分布的概率密度关于x = 0 对称,t 分布的 性质,

6、E(T) = 0, D(T) = n / (n-2), n 2,当 n 充分大时,其图形类似于标准正态分布,概率密度的图形。,但对于较小的 n,t 分布与N (0,1) 分布相差,很大。,(3) t 分布的分位点,对于给定的正数,,称满足条件,分位点。,为,分布的上,的点,设,X与Y相互独立,则称,服从自由度为,3.F 分布,n1及 n2 的F分布,,记作 F F ( n1,n2)。,(2) 若X F(n1,n2),则,n2 2,(1) 由定义可知,, F(n2,n1),性质,n2 4,(3) F 分布的分位点,对于给定的正数,称满足条件,分位点.,分布的上,的点,为,证明: 设,由定义,又因

7、为,故,例1 设总体X , Y 相互独立,其样本为,试求统计量,服从什么分布?,解 由已知得,所以,例2 设总体X 服从正态分布,,其样本为,解 由已知得,所以,故,例3 已知总体X 服从自由度为n 的 t 分布,求证:,解 由已知得,其中,故,所以,还能得,2.5 正态总体的统计量的分布,1. 单个正态总体的统计量的分布,定理 1,设 X1, X2 , , Xn 是取自正态总体,的样本,,分别为样本均值和样本方差,则有,相互独立,定理2 设总体X 服从正态分布,是X 的样本,,分别为样本均值和样本方差,则有,证明 因为,是样本,的线性组,合,故,,标准化后可得,又因为,相互独立,所以,也相互

8、独立,则由t 分布的定义得,2. 两个正态总体的统计量的分布,定理 3,设 X1, X2 , , Xn1 与Y1, Y2 , , Yn2分别是来自,正态总体,的样本,并且这两个样,本相互独立,记,则有, 当,时,其中,例4 设总体X 服从正态分布,,其样本为,解 由已知得,,得,例5 设总体X 服从正态分布,,其样本为,解 由已知得,查表,例6 设总体X 服从正态分布,,其样本为,解 因为,例7 设总体X 服从正态分布,,其样本为,解 由已知得,所以,标准化得,又因为,故,例8 设总体X , Y 相互独立,其样本为,试求以下概率,解 由已知得,则,所以,例9,一个样本,求,(1),(2),由定

9、理 2 知,解,例9,一个样本,求,(1),(2),查表可得,2.5 次序统计量,称为样本,的次序统计量.,特别地,,注,说明:,定理1 设 独立同分布,,为其次序统计量,则,若F(x)具有概率密度f(x),则 X(k)的概率密度为,例,解,样本的分布,1)样本的频数分布,将n个样本值,按从小到大排列,把相同,的数合并,并指出其频数(样本中各数出现的次数),2)样本的经验分布函数,样本值,样本值小于或等于x的个数,作,样本的经验分布函数,给出了在n次独立重复试验中,事件,出现的频率,具有分布函数的一切性质。如:,非降,右连续;,由频数分布知,若样本为n维r.v,那么对于每一样本值,就可作一个经

10、验分布函数,故,是随机变量,-n次独立重复试验中,事件,发生的频率。,由伯努利大数定律,,这就是我们可以由样本推断总体的基本理论依据.,格列汶科进一步证明了:当n时,Fn(x)以概率1关于x一致收敛于F(x),即,这就是著名的格列汶科定理.,定理告诉我们,当样本容量n足够大时,对所有的x, Fn(x)与F(x)之差的绝对值都很小,这件事发生的概率为1.,2.6 描述性统计分析总体特征的识别,2.6.1 描述统计量,1、中心位置的描述,2、变异性的描述,3、样本偏度系数和峰度系数,所谓描述性统计分析,就是对一组数据的各种特征进行分析,以便于描述测量样本的各种特征及其所代表的总体的特征。 描述性统

11、计分析的项目很多,常用的如 平均数、标准差、中位数、极差、偏态程度 等等。这些分析是复杂统计分析的基础。,数据分布的特征,数据分布特征的测度,1.中心位置的描述,(1)分类数据:众数 (2)顺序数据:中位数和分位数 (3)数值型数据:均值 (4)众数、中位数和均值的比较,(1)众数(mode),出现次数最多的变量值 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和数值型数据,众数 (不唯一性),无众数 原始数据: 10 5 9 12 6 8,一个众数 原始数据: 6 5 9 8 5 5,多于一个众数 原始数据: 25 28 28 36 42 42,(2)

12、中位数(median),排序后处于中间位置上的值,不受极端值的影响 主要用于顺序数据,也可用数值型数据,但不能用于分类数据 各变量值与中位数的离差绝对值之和最小,即,样本中位数,定义,其观测值为,(3)数值型数据的中位数 (9个数据的算例),【例】:9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,中位数 1080,(4)数值型数据的中位数 (10个数据的算例),【例】:10个家庭的人均月

13、收入数据 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10,(5)四分位数(quartile),排序后处于25%和75%位置上的值,不受极端值的影响 主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,数值型数据的四分位数(9个数据的算例),【例】:9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5

14、6 7 8 9,数值型数据的四分位数 (10个数据的算例),【例】:10个家庭的人均月收入数据 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10,均值(mean),集中趋势的最常用测度值 一组数据的均衡点所在 体现了数据的必然性特征 易受极端值的影响 用于数值型数据,不能用于分类数据和顺序数据,简单均值与加权均值,设一组数据为: x1 ,x2 , ,xn 各组的组中值为:M1 ,M2 , ,Mk 相应的频数为: f1 , f2 , ,fk,简单均值,加权均值,已改至此!,加权均值 (例题分析)

15、,加权均值 (权数对均值的影响),甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(x ): 0 20 100 人数分布(f ):1 1 8 乙组: 考试成绩(x): 0 20 100 人数分布(f ):8 1 1,均值 (数学性质),1. 各变量值与均值的离差之和等于零,2. 各变量值与均值的离差平方和最小,2、变异性的描述,数据分布的另一个重要特征 反映各变量值远离其中心值的程度(离散程度) 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值,四分位差 (quartile deviation),对顺序数据离散程度的测度 也称为内距或四分间距 上四分位数与下四分位数之差 QD = QU QL 反映了中间50%数据的离散程度 不受极端值的影响 用于衡量中位数的代表性,极差(range),一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布,R = max(xi) - min(xi),计算公式为,方差和标准差 (variance and standard deviation)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号