气候统计基本气候状态的统计检验

上传人:aa****6 文档编号:53437801 上传时间:2018-08-31 格式:PPT 页数:130 大小:2.22MB
返回 下载 相关 举报
气候统计基本气候状态的统计检验_第1页
第1页 / 共130页
气候统计基本气候状态的统计检验_第2页
第2页 / 共130页
气候统计基本气候状态的统计检验_第3页
第3页 / 共130页
气候统计基本气候状态的统计检验_第4页
第4页 / 共130页
气候统计基本气候状态的统计检验_第5页
第5页 / 共130页
点击查看更多>>
资源描述

《气候统计基本气候状态的统计检验》由会员分享,可在线阅读,更多相关《气候统计基本气候状态的统计检验(130页珍藏版)》请在金锄头文库上搜索。

1、第三章 基本气候状态的统计检验,学习目标,气候中常用检验方法,主要指参数检验,如平均值,方差显著性检验; 注意气候问题特有的现象,如成对观测数据,存在时间持续性现象的数据的检验; 掌握检验步骤; 了解非参数检验方法,如遇到类似问题可以加以应用(强大的检验方法);,概述,统计假设性检验,即我们通常所说的“显著性检验”。 显著性检验是除参数估计之外的另一类重要的统计推断问题。 有两种显著性检验方法: 参数检验,当知道某一种理论分布可代表一组数据以及/或检验统计量的特征时采用的方法,因此,可以简化为对分布参数的检验,如Gaussian分布中的平均值 。,概述,非参数检验,没有找到合适的理论分布描述统

2、计量时采用该方法,通常有两种方式实现检验: 经典方法:数据的分布不重要,无论数据遵循何种分布,对于数据都采用相同的方式进行显著性检验,该方法是计算机广泛使用前常采用的方法; 再取样过程:使用计算机反复对数据进行重取样来直接推断数据的分布特征。,样本分布,是对所有统计检验的一个基本概念; 一个统计量是由一组数据计算的具体数值; 某个统计量的样本分布就是描述这个统计量由不同组数据计算所体现的变化的概率分布; 计算样本统计量的数据服从于样本的变化,则样本统计量也服从于样本的变化; 由不同数据组计算的统计量的值不同;,样本分布,概率分布可以描述样本统计量的随机变化,类似于概率分布可以描述数据的随机变化

3、; 样本统计量可由概率分布得到,这些分布就是样本分布; 样本分布提供了描述统计量取可能值的相对频率;,显著性检验的步骤,明确要检验的问题,即确定检验统计量,参数检验下,检验统计量通常是相关分布的参数的样本估计值,非参数分布可以自由的定义检验统计量; 定义一个原假设/零假设( ),通常为人们希望去拒绝的一个问题,如两组样本平均值之间不存在差异。 定义一个备择假设( ),通常它是原假设的对立假设。,显著性检验的步骤,选择合适的检验统计量,在原假设成立的条件下,确定该统计量的概率分布(即确定零分布)。例如,检验两组样本平均值差异可选用t分布检验,检验方差的显著性可用F分布检验。 给定显著性水平 ,由

4、样本数据计算检验统计量,当检验统计量落在零分布的否定域则拒绝原假设。,显著性检验的基本思想,可以用小概率原理来解释实际中,小概率事件不应发生。 小概率原理:小概率事件在一次试验中是几乎不可能发生的,若在一次试验中小概率事件发生了,则说明该事件不是来自于我们假设的总体/分布(满足零假设),也就说明我们对总体所做的假设不正确。,显著性检验的基本思想,观测到的显著水平:由样本数据计算出来的检验统计量所截取的尾部面积/概率(P值),这个概率较小,则反对原假设(小概率事件发生了)。 若观测到的差异表明真实的差异存在的证据越强,则越有理由表明存在真实的差异。 检验所用的显著性水平:针对具体问题的具体特点,

5、事先规定检验标准。,显著性检验的基本思想,由以上原理得到的操作过程:把观测到的显著性水平与作为检验标准的显著性水平比较。 若小于该标准时,则拒绝原假设; 若大于该标准,则认为没有足够证据拒绝原假设。 实际操作:已由显著性水平表得到其对应的临界值,可直接比较检验统计量的观测计算值与临界值的大小。,显著性水平以及P值,检验水平(test level/level):是零分布中“能够足够说明”不可能发生的区域,即拒绝域。 检验水平已经提前选定,因此,具有主观性。 P值:由样本计算得到的检验统计量的具体的概率值(前提条件:样本统计量满足零分布)。,显著性水平(临界概率),如何理解 ?通常 取较小的值,即

6、小概率。例如,给定 ,若所分析的事件落在否定域,即概率不大于 的区域内,则说明小概率事件发生了,但实际上这样的小概率事件是不可能发生的,则说明我们的原假设是错误的。,假设性检验可能犯的两类错误,第一类:原假设 实际上是正确的,但我们却错误地拒绝了它,犯了“弃真”的错误,称为第一类错误,用显著性水平 表示; 第二类:原假设 实际上是不正确的,但我们却错误地接受了它,这是犯了“纳伪”的错误,称为第二类错误,用 表示。,假设性检验可能犯的两类错误 图示,当 减小,则 必然增加,因此为了较好的平衡误差概率的发生, 有时会选择较不严格的显著性水平,如,假设性检验可能犯的两类错误 图示,落在拒绝域中的事件

7、不是不可能发生,而是发生概率较小,假设性检验可能犯的两类错误,尽管我们希望最小化上述两类错误,但实际不可能; 通过调整检验水平可以调整 和 的概率; 但减少其中一个,则必然增加另一个。,假设性检验可能犯的两类错误,检验水平 的概率可以给定; 但 的概率通常不能给定,由于对应于零假设可能存在很多备则假设;,假设性检验可能犯的两类错误,单侧和双侧检验,采用双侧检验还是单侧检验(左侧还是右侧),由原假设和备则假设共同决定。 若检验统计量的观测计算值可能落入两分布的两侧(两尾)时,为双侧检验。 若落入零分布的左侧时,则为左侧检验,反之为右侧。,单侧与双侧假设检验,选择单侧或双侧假设检验,首先得依据我们

8、所分析问题的物理本质。 单侧检验:当我们兴趣的问题集中在某一侧,如图5.1中的备则假设是 ,而不是 ,则为右侧检验。若任何检验统计量大于 ,则拒绝原假设; 例如:两个数据总体的统计量的平方是否存在显著差异,原假设为无差异,则较大的正值将可能拒绝原假设,即上述问题为右侧检验,单侧与双侧假设检验,双侧检验:适用于检验统计量非常大或非常小均不符合零假设,通常对应于备则假设为“原假设不正确”的提法; 其对应于显著性 ,若统计量大于右侧的 ,或者小于左侧的 ,则拒绝原假设; 则双侧检验比单侧检验的检验统计量更极端;,单侧检验与双侧检验,双侧检验,左侧检验,右侧检验,置信度间隔,假设性检验估计出了观测统计

9、量落入拒绝域的可能性; 置信度间隔则是找到检验统计量落在拒绝域外的可能取值范围; 常用于构建图中样本统计量的error bar;,置信度间隔,参数检验 单样本t检验,最为常用的统计检验; t分布为对称分布,非常类似于Gaussian分布,但极值处(左右两侧)具有的概率分布高于Gaussian分布; 适用于两种情况: 总体方差未知时; 遵从正态分布的均值检验,小样本也适用。,参数检验 单样本t检验,t分布只有一个参数, ,称为“自由度”,自由度无限增大时,t 分布将趋近于Gaussian分布,实际上,当自由度大于30后,两者的分布曲线基本接近。 适用于总体方差未知。 检验统计量为:,独立条件下平

10、均值差异的显著性检验 (两组样本平均值差异的显著性检验),两组独立样本平均值是否存在显著差异: 例如在两种天气形势下平均冬季500mb高度的差异; 气候模式中CO2浓度加倍与否,某地7月平均温度的差异; 通常两组样本的平均值是有一定差异的,无论他们是否来自于相同的总体或数据产生过程相同; 零假设是两组样本平均值无显著差异: 若事先不知两组平均数的大小关系,则为双侧检验; 否则是单侧检验;,独立条件下平均值差异的显著性检验 (两组样本平均值差异的显著性检验),原假设:两组样本平均值无显著差异; 平均值差异通常近似满足Gaussian分布(样本足够大或两组样本本身满足Gaussian分布),则遵循

11、Gaussian分布:其中,独立条件下平均值差异的显著性检验 (两组样本平均值差异的显著性检验),得到标准Gaussian分布检验统计量:总体方差不相等:小样本满足t分布,自由度为:大样本接近标准Gaussian分布;,独立条件下平均值差异的显著性检验 (两组样本平均值差异的显著性检验),总体方差相等:自由度为:上述两种表达式对应的分子部分若较小,则不拒绝原假设,若分子部分为分母部分的两倍,则在5%的显著性水平上拒绝原假设(双侧)。,成对(Paired Samples)或同时观测数据的平均值差异的显著性检验,两组成对数据之间的平均值差异的显著性检验需要考虑这两组数据的相关程度( )。 大气科学

12、中,成对数据间通常为正相关,因此,通常的检验可能过高估计了两组样本差异的方差,则检验统计量值(绝对值)相应降低,通常,原假设原本应该被拒绝却可能会接受;,成对( Paired Samples)或同时观测数据的平均值差异的显著性检验,例如,两地某月同时观测的最高温度,存在较强的相关,即一地温度高,则另一地的温度也可能相应较高; 则月平均最高温度的变化中有一部分是两地共有的,而上述检验公式的分子部分(两地最高温度平均值差值)已消除了共有变化的部分;,成对( Paired Samples)或同时观测数据的平均值差异的显著性检验,相应的,分母部分也应该消除两者共有变化部分的影响; 最简单和直接的方法是

13、将双样本检验转化为单样本检验:,成对(Pair Samples)或同时观测数据的平均值差异的显著性检验,总体平均值为:在零假设下,计算值通常为0;,成对(Pair Samples)或同时观测数据的平均值差异的显著性检验,检验统计量为:是n对观测值差异的方差; 对于具有正相关的两对数据,两者平均值差异较小时,也可能体现出两者平均值存在显著差异;,时间非独立条件下的平均值差异的显著性检验,上述检验,通常建立在构成样本的数据自身应满足独立性条件; 大气数据通常较难满足“独立”条件,许多数据是时间非独立或者说具有时间上的持续性的特点,例如气温; 并且,大气中数据的平均多指时间平均。,时间非独立条件下的

14、平均值差异的显著性检验,气象中的持续性使得数据时间平均的方差比独立数据大,因此在使用前面所给出的方法分析通常会“低估”统计检验分布的方差部分,从而增大了统计检验的值,因此增大了平均值差异通过显著性检验的可能性。,时间非独立条件下的平均值差异的显著性检验,时间非独立条件下的平均值差异的显著性检验有效样本量,有效样本量( )即独立样本量;独立样本分布的方差与原样本分布( )具有相同的方差,因此,可用 代替 ; 在假定原数据的持续性满足一阶自回归过程的前提下,有: , 为时滞为1的自相关系数;则: ,其中 为方差膨胀系数,有效自由度,实际上气候变量的一个突出特点就是具有红噪声谱,即不同时间的数据之间

15、不是完全独立的(不是随机的); 气候变量某一时刻的状况对后面的状况是有影响的,很多气候变量有很强的持续性或者很高的自相关; 因此进行相关系数等检验统计量的显著性检验时,需要首先对时间序列的有效自由度进行估计;,有效自由度,估计有效自由度的方法很多。红噪声时间序列的自相关系数随落后时间步长减少,自相关系数越大则独立样本数(有效自由度)越小; Leith(1973)指出有效自由度与样本数(时间序列长度n)之间有如下关系(取滞后步长为1):Bretherton等(1999)给出的另外的一种计算方法是 (取滞后步长为1) :,有效自由度,Von Storch and Zwiers(1999):其中 是自相关函数;,举例,考虑Ithaca和Canandaigua1987年1月平均最高温度是否存在显著差异? 上述问题等同于分析两样本平均值差异是否显著的不等于0; 这两组数据为成对数据,且各自存在序列相关; 因此,需要考虑成对数据检验方法,以及有效样本量;,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > 教育/培训/课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号