气候统计基本气候状态的统计量

上传人:油条 文档编号:54031999 上传时间:2018-09-07 格式:PPT 页数:70 大小:3.26MB
返回 下载 相关 举报
气候统计基本气候状态的统计量_第1页
第1页 / 共70页
气候统计基本气候状态的统计量_第2页
第2页 / 共70页
气候统计基本气候状态的统计量_第3页
第3页 / 共70页
气候统计基本气候状态的统计量_第4页
第4页 / 共70页
气候统计基本气候状态的统计量_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《气候统计基本气候状态的统计量》由会员分享,可在线阅读,更多相关《气候统计基本气候状态的统计量(70页珍藏版)》请在金锄头文库上搜索。

1、第二章 基本气候状态的 统计量,Part 1 统计资料的整理:统计量以及经验分布,学习目的,资料,实测 资料,模式 资料,气象和气候分析的根本,第一步,分析数据的 基本特性,进一步,学习目标,介绍常用的表征基本气候状态的统计量的特性; 学习有关表征中心趋势、变化幅度以及经验性的数据分布特征的统计量; 在学习以上统计量的同时,学会绘制相关的统计图。,统计量,中心趋势统计量,所谓中心趋势统计量,指的是我们用一个数值来描述样本资料在哪一个位置或者集中在哪个中心位置上的数据是最有代表性的。 常见的中心趋势统计量包括: 平均数(mean) 中位数(median) 众数(mode),中心趋势统计量平均数,

2、平均数(mean) 对于包含有 个样本的一个变量 ,即样本平均值为:,Robustness以及Resistance,一个统计分析被称为robustness,则表明该分析不会受到数据分布特征的影响;例如,当数据遵循于高斯分布(正态分布)时,平均值能够很好的体现数据的中心趋势。而当数据不满足高斯分布时,通常的平均值计算方法很可能会产生错误的中心趋势结果。,Robustness以及Resistance,一个统计分析被称为resistance,则表明它不会受到数据极值的影响,或者说当数据中的小部分,甚至较大部分发生变化后,所采用的统计方法计算结果不会发生大的变化。例如,一组数据为11,12,13,14

3、,15,16,17,18,19,其平均值为15,但改变数据为11,12,13,14,15,16,17,18,91,其平均数为23。(平均值计算方法失效),百分位数,百分位数经常应用于气候分析中; 百分位数是本章需要重点强调的部分; 怎么计算百分位数?一组数据为由小到大重新排序变为得到各种百分位数,如中位数,上四分位数,下四分位数等。,中心趋势统计量中位数,中位数(median) 对于重新排列的数据中位数为:类似计算可以得到四分位数 和 , 即“hinges”(Tukey,1977),中心趋势统计量众数,众数(mode)一个数据序列中出现频次(概率)最高 的数。,变化幅度统计量,统计量中的平均数

4、、中位数和众数等描述的仅仅是气候变量分布中心在数值上的大小,并没有告诉我们这种变化与正常情况的偏差和变化的波动。变化幅度统计量即表征距离分布中心远近程度的统计量。 变化幅度统计量包括: 距平(anomaly) 方差(variance)和标准差(standard deviation),变化幅度统计量 距平、方差和标准差,距平( anomaly )一组数据中的某一个数 与 (平均数)之间的差就是距平 ,即方差(variance)描述样本中数据与以平均数为中心的平均振荡幅度标准差(standard deviation)方差的平方根,分布特征统计量,通常用样本的偏态系数来体现数据的分布特征,即对称性。

5、 计算公式如下:,正态以及偏态分布示意图,正/右偏态分布,负/左偏态分布,正和负偏态下均值与中位数的关系,正偏态,负偏态,相对于平均数的更为robustness和resistance的统计量,位置统计量(Location)-平均数R&R:中位数剪裁平均(trimmed mean-trimean),相对于方差的更为robustness和resistance的统计量,离散程度统计量(Spread)-方差R&R:内四分位数的范围(interquartile range- IQR),相对于偏态系数的更为robustness和resistance的统计量,对称性统计量(Symmetry)-偏态系数R&R

6、:Yule-kendall 指数,经验分布,图例枝-叶(Stem-and-Leaf)图,1998年7月北京最高温度,注:适用于数据量很小时,1998年7月北京最低温度,图例柱状(Histogram)图,c为常数,通常取值范围在2.0-2.6,间距的选取方式:,1998年7月北京最高温度,1998年7月北京最低温度,柱状图的缺点,柱状图的柱中心位置的选择主观,以柱中心为基点,周围的值必须向该中心四舍五入; 柱状图不够平滑;,图例累计频率分布(Cumulative Frequency Distribution)图,近似正态分布,右偏/正偏分布,盒须图(box-and-whisker plot) /

7、骨架图(schematic plot)-数据点介绍,盒须图(box-and-whisker plot) /骨架图(schematic plot)-示意图,中位数,包含50%的数据值,上四分位数,下四分位数,非界外值的最大数据值,非界外值的最小数据值,上界外值(Outliers),O,O,下界外值(Outliers),E,上极端值(Extremes),E,下极端值(Extremes),盒须图(box-and-whisker plot) /骨架图(schematic plot)-图例1,北京和天津1998年7月最高以及最低温度的盒须图,盒须图(box-and-whisker plot) /骨架图(

8、schematic plot)-图例2,1948年-2004年亚洲土壤湿度随深度的空间变化盒须图,盒须图(box-and-whisker plot) /骨架图(schematic plot)-如何绘制,数据的准备( Grapher软件)推荐使用Matlab进行绘制,盒须图(box-and-whisker plot) /骨架图(schematic plot)-意义,清楚地显示了数据的分布特征,包括中心趋势量(中位数)、离散程度(IQR)以及对称性等。 给出了数据的极值点。 可以同时给出几组数据进行对比分析。,相关统计量,数据的距平标准化,数据标准化处理是数据变换的方式之一; 当数据之间无法直接进

9、行比较时,例如不同季节之间的温度,数据变换是一种有益的方法; 通常处理方法是距平标准化,也可以采用不受异常值影响的方式,如原数据减去中位数,再除以IQR进行标准化,但几乎没有人使用这种处理方法。,数据的距平标准化,原因及优点-不同单位、不同量级数据之间便与比较 计算公式- , 为标准差 特点1-通常标准化后的数据为无量纲的数据 特点2-标准化数据的平均值为0,标准差为1 为相关系数的引出作了铺垫,数据的距平标准化,Standardized differences between the standardized monthly sea level pressure anomalies at T

10、ahiti and Darwin (Southern Oscillation Index),19602002. Individual monthly values have been smoothed in time.,数据的距平标准化,数据标准化处理是不仅使得数据间便于比较,其核心思想是试图消除数据的“位置”和离散程度对进一步分析所带来的影响; 例如,1月和7月某日温度相对本月长期平均温度的距平相同,但1月和7月数据离散程度,即标准差不同,则距平标准化值能体现出这两月中这种温度变化是否是属于异常事件。,散点图(x-y plot),北京1998年1月日最高温度和最低温度散点图,显示出最低温度(

11、x)与最高温度(y)两者之间的关系 体现两变量联系的变化趋势以及变化的曲率 分别可以显示出两变量的分布状况,Scatterplot for daily maximum and minimum temperatures during January 1987 at Ithaca, New York. Closed circles represent days with at least 0.01 in. of precipitation (liquid equivalent).,Pearson(“普通”)相关,我们需要用一个值来表征两个变量之间的密切程度,为此我们用相关来体现。 目前常用的体现相

12、关的是两变量之间的线性关系。,Pearson(“普通”)相关公式,协方差也可以体现两个变量间的关系,其公式为但协方差是一个带有单位的统计量,不便于不同要素间进行联系,因此需要将原数据作标准化处理。得到相关公式为:,Pearson(“普通”)相关-特点,相关值介于1之间,即 常可以用来表示两个变量中的一个被另一个变量解释的程度,但并不能从物理上解释其中一个变量的变化是由另一个变量所致,可能这两个变量的变化皆由其它物理过程所致。,气候中常见的相关术语,时间上的相关性(serial correlation, lagged correlation); 空间上的相关性(spatial correlati

13、on, teleconnection); 不同变量间的相关(cross-correlation);,Serial correlation,The monthly mean Southern Oscillation Index, computed as the difference between Darwin (Australia) and Papeete (Tahiti) monthly mean sea-level pressure (Jahr is German for year).,Serial correlation-Auto Correlation,Auto-correlation

14、 function of the index shown in above figure. Units: %.,Cross correlation,The conventional Southern Oscillation Index (SOI = pressure difference between Darwin and Tahiti; dashed curve) and a sea-surface temperature (SST) index of the Southern Oscillation (solid curve) plotted as a function of time.

15、 The conventional SOI has been doubled in this figure. The correlation between the two time series displayed in this Figure is 0.67.,线性相关的局限性,Pearson相关既不robustness, 也不resistance,Spearman排序相关系数,Spearman排序相关很好的体现了数据对之间单调关系的强度; 而Pearson相关则反应了数据对之间线性关系的强度,为数据对(x,y)之间序号的差值,自相关(autocorrelation),自相关指得是序列与自身的相关 时间自相关意思是序列不同时刻(过去或未来)之间的相关,也称为滞后相关。 通常用Pearson相关来计算自相关。,1998年1月北京日最低温度,“-”表示前n-1个数 “+”表示后n-1个数,自相关(autocorrelation)-续,“-”表示前n-k个数 “+”表示后n-k个数,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号