环境统计学-概率分布.

上传人:我** 文档编号:114965136 上传时间:2019-11-12 格式:PPT 页数:153 大小:8.60MB
返回 下载 相关 举报
环境统计学-概率分布._第1页
第1页 / 共153页
环境统计学-概率分布._第2页
第2页 / 共153页
环境统计学-概率分布._第3页
第3页 / 共153页
环境统计学-概率分布._第4页
第4页 / 共153页
环境统计学-概率分布._第5页
第5页 / 共153页
点击查看更多>>
资源描述

《环境统计学-概率分布.》由会员分享,可在线阅读,更多相关《环境统计学-概率分布.(153页珍藏版)》请在金锄头文库上搜索。

1、1,环 境 统 计 学,授课教师:林红军 授课时间:2010学年第二学期,Presentation,(Environmental Statistics ),环境科学系 办公地点:校8幢123室,17幢612室 E-mail: hjlin, linhonjun Cell:159 5845 9856, 679856,2,环 境 统 计 学,第1章 绪论 第2章 概率统计基础 第3章 环境一元线性回归分析 第4章 环境多元线性回归分析 第5章 环境系统聚类分析 第6章 环境模糊聚类分析 第7章 环境判别分析 第8章 环境主成分分析 第9章 环境因子分析 第10章 人工神经网络 第11章 环境空间统计

2、分析,3,概率分布,正态分布 t分布 x2分布 F分布,概率分布,统计推断,参数估值 点估计 区间估计 置信区间 假设检验,统计推断,第四节 重要的概率分布,常用连续型概率分布,5,COD的测试,微回流重铬酸钾测试方法,正态分布 (normal distribution),6,COD的测试,1000mg/L,7,概率密度函数 (probability density function),1. 设X为一连续型随机变量,x 为任意实数,X的概率密度函数记为f(x),它满足条件,f(x)不是概率,8,正态分布 (normal distribution),由C.F.高斯(Carl Friedrich

3、Gauss,17771855)作为描述误差相对频数分布的模型而提出 描述连续型随机变量的最重要的分布 许多现象都可以由正态分布来描述 可用于近似离散型随机变量的分布 例如: 二项分布 经典统计推断的基础,正态分布的定义及其特征 (一) 正态分布的定义 若连续型随机变量x的概率分布密度函数为 (1) 其中为平均数,2为方差,则称随机变量x服从正态分布(normal distribution), 记为xN(,2)。相应的概率分布函数为 (2),称轴不变,而形状在改变,图形越高越瘦,图形越矮越胖.,轴平移,而不改变其形状,可见正态分布的概率密,为位置参数.,决定了图形的中心位置, 决定了图形中峰的陡

4、峭程度.,正态分布 的图形特点,正态分布的计算,原函数不是,初等函数,方法一:利用MATLAB软件包计算,方法二:转化为标准正态分布查表计算,的正态分布称为标准正态分布.记为,其密度函数和分布函数常用 和 表示:,标准正态分布,标准正态分布,书末附有标准正态分布函数数值表,有了它,可以解决一般正态分布的概率计算查表.,正态分布表,当 x 0 时 ,表中给的是 x 0 时, (x)的值.,(一)标准正态分布的概率计算 设z服从标准正态分布,则 z 在z1,z2 何内取值的概率为: (z2)(z1) 而(z1)与(z2)可由附表1查得。,正态分布的概率计算,例如,Z=1.75 ,1.7放在第一列0

5、.05放在第一行 。 在附表1中 , 1.7所在行与 0.05 所在列相交处的数值为0.95994,即 (1.75)=0.95994 有 时 会 遇 到 给 定 (Z) 值 , 例 如 (Z)=0.284, 反过来查u值。这只要在附表1中找到与 0.284 最接近的值0.2843,对应行的第一列数 -0.5, 对应列的第一行数 值 0.07 ,即相应的u值为 u = - 0.57,即 (-0.57)=0.284 如果要求更精确的u值,可用线性插值法计算。,21,【例1】定某公司职员每周的加班津贴服从均值为50元、标准差为10元的正态分布,那么全公司中有多少比例的职员每周的加班津贴会超过70元,

6、又有多少比例的职员每周的加班津贴在40元到60元之间呢?,解:设=50, =10,XN(50,102),22,【例2】,解,24,思考题,1、已知某种水果的单个重量服从正态分布,平均值为140g,标准差为12.2g,今随机抽出一个,试问其重量不小于130g的概率是多少? 2、某地区成年男子身高服从正态分布,其均值是169cm,标准差为7cm。求满足满足以下条件的男子的比例:、155cm以下;、176cm以上;155cm176cm之间 3、某电视机厂某种型号电视机的销售价为2000元,成本为1200元。产品中有一部分可能会在保持期内损坏,因此厂家得免费维修,假设修理费平均而言每台500元。现假设

7、电视机的使用寿命呈正态分布,均值为7年,标准差为3年。问:如果希望每台电视机的平均利润达到750元,厂家应承诺的保修期大概是几年?,当总体标准差未知时, 以样本标准差S代替所得到的统计数 记为t。即,t 分 布,若xN(, 2), 则 N(, 2/n)。 将随机变量 标准化得: ,则zN(0,1)。, t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布,t 分 布,在计算 时,由于采用S来代替,使得t 变量不再服从标准正态分布,而是服从自由度d =n-1 的t分布。,t的取值范围是(-,+);,f

8、,t 分 布,与标准正态分布曲线相比, t分布曲线顶部略低 ,两尾部稍高而平。df 越小这种趋势越明显 。df越大,t分布越趋近于标准正态分布。,t 分 布,当n 30时,t分布与标准正态分布的区别很小; n 100 时,t分布基本与标准正态分布相同; n时, t 分布与标准正态分布完全一致。,由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson) 分别于1875年和1900年推导出来 设 ,则 令 ,则 Y 服从自由度为1的2分布,即 当总体 ,从中抽取容量为n的样本,则,2分布 (2 distribution),30,分布的变量值始终为正

9、分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 期望为:E(2)=v,方差为:D(2)=2v(v为自由度) 可加性:若U和V为两个独立的2分布随机变量,U2(v1), V2(v2),则U+V这一随机变量服从自由度为v1+v2的2分布,2分布 (2 distribution),5、设XN(u, ),x1 ,x2,xn是X的一个样本, 与 分别为样本 的均值和方差,则有:,2分布 (2 distribution),2分布 (2 distribution),33,分位点 若对于给定的 ,0 1,存在使得 则称点 为 分布的上 分位点,如图所示。,34,由统计

10、学家费希尔(R.A.Fisher) 提出的,以其姓氏的第一个字母来命名 设若U为服从自由度为v1的2分布,即U2(v1),V为服从自由度为v2的2分布,即V2(v2),且U和V相互独立,则 称F为服从自由度v1和v2的F分布,记为,F分布 (F distribution),35,假设总体X-N( ),总体Y-N( ),X,Y相互独立,x1, x2, xn和y1,y2, , yn分别是来自X和Y的样本。 分别是它们的方差,则:,36,F分布 (图示), 不同自由度的F分布,37,分位点 对于给定的,0 1,称满足 为F分布的分位点。 ,参数估计(parametric estimation) 假设

11、检验 ( test of hypothesis),根据总体理论分布,从样本统计数对总体参数的推断 常用的有t检验、F检验和2检验等,基本原理相同。 主要内容:,假设检验又叫显著性检验。,统计推断 (F distribution),39,统计推断的过程,参数估计的基本理论,抽样估计的基本条件 有合适的统计量作为估计量 有合理的允许误差范围 有一个可以接受的置信度 参数估计的基本概念 总体和样本 参数及统计量 样本容量和样本个数 重复抽样和不重复抽样 参数估计的基本方法 点估计和区间估计,参数估计在统计方法中的地位,1. 估计量:用于估计总体参数的随机变量 如样本均值,样本比率、样本方差等 例如:

12、 样本均值就是总体均值 的一个估计量 2. 参数用 表示,估计量用 表示 3. 估计值:估计参数时计算出来的统计量的具体值 如果样本均值 x =80,则80就是的估计值,估计量与估计值,参数估计的方法,估 计 方 法,点 估 计,区间估计,44,点估计,用样本的估计量直接作为总体参数的估计值 例如:用样本均值直接作为总体均值的估计 例如:用两个样本均值之差直接作为总体均值之差的估计 没有给出估计值接近总体参数程度的信息 点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等,点估计完全正确的概率通常为0。因此,我们更多的是考虑用样本统计量去估计总体参数的范围 区间估计。,45,区间估计

13、,含义:在点估计的基础上,估计总体参数的区间范围,并给出区间估计成立的概率值。 其中: 1-(01)称为置信水平 是区间估计的显著性水平; 常用的置信水平值有 99%, 95%, 90% 相应的 为0.01,0.05,0.10,注意对上式的理解: 例如抽取了1000个样本,根据每一个样本均构造了一个置信区间,这样,由1000个样本构造的总体参数的1000个置信区间中,有95%的区间包含了总体参数的真值,而5%的置信区间则没有包含。这里,95%这个值被称为置信水平(或置信度)。 一般地,将构造置区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。,46,由样本统计量所构造

14、的总体参数的估计区间称为置信区间 统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间 用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值 我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个,47,区间估计的图示,48,置信区间,我们用95%的置信水平得到某班学生考试成绩的置信区间为60-80分,如何理解? 错误的理解:60-80区间以95%的概率包含全班同学平均成绩的真值;或以95%的概率保证全班同学平均成绩的真值落在60-80分之间。 正确的理解:如果做了多次

15、抽样(如100次),大概有95次找到的区间包含真值,有5次找到的区间不包括真值。 真值只有一个,一个特定的区间“总是包含”或“绝对不包含”该真值。但是,用概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数的真值。 如果大家还是不能理解,那你们最好这样回答有关区间估计的结果: 该班同学平均成绩的置信区间是60-80分,置信度为95%。,49,置信区间与置信水平,一个总体参数的区间估计,一、总体均值的区间估计 二、总体比率的区间估计 三、总体方差的区间估计,51,一个总体参数的区间估计,总体均值的区间估计 (大样本),1. 假定条件 总体服从正态分布,且方差() 未知 如果不是正态分布,可由正态分布来近似 (n 30) 2. 使用正态分布统计量 z,3. 总体均值 在1- 置信水平下的置信区间为,利用SPSS软件对总体均值的估计,按AnalyzeDescriptive StatisticsExplore展开Explore对话框,如图。从左侧的源变量框中,选择需要估计的变量(要求是数值型变

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号