空间数据的统计分析_3_本

资源描述

《空间数据的统计分析_3_本》由会员分享，可在线阅读，更多相关《空间数据的统计分析_3_本（141页珍藏版）》请在金锄头文库上搜索。

1、第七章空间数据的统计分析方法（3）,武汉大学遥感信息工程学院遥感科学与技术本科生教案(2012),秦昆,,2,地统计分析概述空间变异函数克里金估计方法地统计分析研究展望 ArcGIS的地统计分析工具,主要内容,3,地统计分析概述,4,20世纪50年代，南非采矿工程师Daniel Krige总结多年金矿勘探经验，提出根据样品点的空间位置和样品点之间空间相关程度的不同，对每个样品观测值赋予一定的权重，进行移动加权平均，估计被样品点包围的未知点矿产储量，形成了克里金估计方法(kriging)的雏形。 20世纪60年代初期，法国地质数学家Georges Matheron提出数学形式的区域化

2、变量，严格地给出了基本变异函数(variogram)的定义和一般克里金估计方法。通过对变异函数、克里金估计以及随机模拟方法的深入扩展，地统计学(Geostatistics)已经成为空间统计学的核心内容，其理论体系的深度和方法扩展宽度是其它空间统计方法无法比拟的。,地统计分析概述(Geostatistics),5,国内的地统计工作主要集中于地质勘探建模和地理(环境)空间数据分析应用方面。国际上，地统计不仅是地质领域数学地质的主要分支，同时也逐渐成为数学领域应用统计的一个新分支。地统计学(Geostatistics) ，也称为地质统计学，是一门以区域化变量理论为基础，以变异函数为主要工具，研

3、究那些分布于空间上既有随机性又有结构性的自然或社会现象的科学。主要包括：区域化变量的变异函数模型、克里金估计和随机模拟三个主要内容。相对于物理机制建模，地统计是一种分析空间位置(空间结构)相关地学信息的经验性方法(赵鹏大, 2004)。,地统计分析概述,6,地理信息是地理空间位置相关的信息。地理信息科学是一门研究地理信息获取、处理和利用中的基本规律的科学，与地统计学存在本质联系。地统计学和地理信息科学存在重叠的研究对象，即地理空间相关信息。地统计学遵从相近相似规律(空间位置相近的地学现象具有相似属性值)，这与地理信息分析中的地理学第一定律(空间相近的地理现象比空间远离的地理现象具有更强的

4、相关性)完全一致。地统计学和地理学第一定律同在20世纪60年代被独立提出。,地统计分析概述,7,尽管地理信息系统中还存在空间自回归模型(空间滞后模型和空间误差模型)、地理加权回归和各种空间结构(空间分布)探索等空间统计分析方法，但是地统计一直是理论基础最为完善且应用扩展最为广泛的主流空间统计方法，地统计学已经成为地理信息科学中地理信息处理和分析的重要理论，地统计分析功能被直接嵌入或平行连接到地理空间或遥感影像信息系统中。,地统计分析概述,8,地统计具有不同于传统统计的两个显著特点： 1）样本点的空间相关性。传统统计中不同样本点仅具有随机性，样本点之间保持空间独立性。然而，地统计中样本点不

5、仅具有随机性，同时样本点之间具有空间相关性。 2）一次性样本采集。传统统计分析同一空间位置处可以多次采样数据。实际地统计分析中，样本区域中每一个空间位置多为一次采样数据。根据传统统计学，一次采样数据中无法推断出总体规律。这两个特点导致了地统计中描述空间相关性(空间结构)的变异函数和克服一次采样局限的平稳性假设的提出。有时候，区域化变量的空间相关(不同空间位置变量的相关)也称为空间自相关，区域化变量的协方差(不同空间位置变量的相关)也称为空间自协方差。,地统计分析概述,9,空间变异函数,10,区域化变量的定义和平稳性假设,当空间被赋予地学含义时，地学工作者习惯称其为区域。发现地表空间的区域

6、差异正是地理学研究的基本任务。当一个专题变量分布于空间，呈现一定的结构性和随机性时，在地统计学上称之为“区域化”，区域化变量(regionalized variable)描述的现象为区域化现象。,空间变异函数,变异函数（区域化变量的定义和平稳性假设）,定义：设Z(x)为一随机变量，表示在空间位置x处专题变量取值是随机的，区域化变量是区域化随机变量的简称。Z(X)=Z(x), xX表示区域X中所有空间位置x处随机变量Z(x)的集合(簇)，又称为随机场，随机场也可看作若干空间样本（空间函数）的集合。,11,12,区域化变量即空间位置相关的随机变量。区域化变量为具有内在空间结构的随机变量，它是随机

7、场的简化。随着抽象层次的提升或观察尺度的加大，一个复杂结构的空间单元逐步简化为一个简单的空间位置点。区域化变量理论重点研究区域化随机变量的各种空间结构和统计性质，变异函数是描述区域化随机变量空间结构的有效数学工具，克里金估计利用区域化变量结构性质进行估值应用。估计是数据处理的一种泛称。在时间域，服务于不同目的估计分别称为滤波(除去噪音)、平滑(找出趋势)和预测(计算未来值)。在空间域，估计可以分为内插(计算研究区域内的未知值)和外推(计算研究区域外的未知值，又称为预测)。克里金插值和克里金预测统称为克里金估计。揭示区域化变量空间结构和统计性质的理论，简称为区域化变量理论，构成了地统计

8、学的基础。,变异函数（区域化变量的定义和平稳性假设）,地统计中的数据多为区域中每个空间位置的一次采样数据。通常，为了满足总体规律推断中多个样本(大样本)的数据要求，地统计中使用平稳(second-order stationary)或内蕴(intrinsic stationary)假设下多个空间位置采样数据(每个位置依然是一次采样数据)来替代单个位置上的多次采样数据(传统统计的采样数据)。机理上，相近相似规律的普适性、空间结构的稳定性、地学现象空间结构形成的驱动(动力)因素的不变性等表明了平稳性假设的现实合理性。,13,变异函数（区域化变量的定义和平稳性假设）,变异函数（区域化变量的定义和平稳

9、性假设）,存在n个随机变量的联合分布F(Z(x1), Z(x2), , Z(xn)，严格的平稳性指随机变量联合分布的空间位移不变性，即： F(Z(x1), Z(x2), , Z(xn) = F(Z(x1+h), Z(x2+h), , Z(xn+h) 实际应用中，满足这种位移不变的联合概率分布的区域化随机变量较少见，而且严格平稳性的验证非常困难。相比较，容易满足和验证的是分布参数(矩)的平稳性，即弱平稳性假设。常用的弱平稳性假设包括二阶平稳性和内蕴性假设。二阶平稳性是比内蕴性更严格的若(弱)平稳性假设。,14,变异函数（区域化变量的定义和平稳性假设）,定义：如果区域化变量Z(x)满足下列两个

10、条件，则称其满足二阶平稳性假设。（1）在研究范围内，区域化变量Z(x)的期望存在且为常数，即 EZ(x)=m （2）在研究范围内，区域化变量Z(x)的协方差函数存在且为空间滞后h的函数，与空间位置x无关，即 CovZ(x), Z(x+h)=EZ(x+h)-mZ(x)-m= EZ(x+h) Z(x)-m2=C(h) 当h=0时，条件（2）说明了方差函数存在且为常数，VarZ(x)=CovZ(x), Z(x)=EZ(x)-m2=C(0),15,变异函数（区域化变量的定义和平稳性假设）,二阶平稳性假设中要求区域化变量的期望、协方差和方差都存在，实际中区域化变量的先验期望可能不存在，但是变异函数存在

11、。定义在区域化变量相对增量上的变异函数具有比定义在区域化变量绝对值上的协方差函数的条件更加宽松，变异函数的计算比协方差函数的计算更加容易。协方差函数和变异函数为空间结构的对偶描述方式。对于区域化变量，协方差函数从相似角度来描述空间结构，变异函数则从差异角度描述空间结构。,16,变异函数（区域化变量的定义和平稳性假设）,定义：如果区域化变量Z(x)满足下列两个条件，则称其满足内蕴性假设。（1）在研究范围内，区域化变量Z(x)增量的期望为零，即EZ(x+h)-Z(x)=0 （2）在研究范围内，区域化变量Z(x)增量的方差存在且为空间滞后h的函数，与空间位置x无关，即 VarZ(x+h)-Z(

12、x)=EZ(x+h)-Z(x)-EZ(x+h)-Z(x)2=EZ(x+h)-Z(x)2=2(h) 这里，(h)表示区域化变量的变异函数或半方差函数。有些文献也将(h)称为半变异函数或半变差函数。可以看出，区域化变量增量的计算避免了期望的直接计算。变异函数对区域化变量的期望的存在没有直接要求。,17,变异函数的定义和非负定性条件,定义：变异函数是区域化变量空间结构的一种形式化表达，数学表示为两个随机变量Z(x)和Z(x+h)之间增量的方差的一半，,18,19,进一步表达式变换为：,变异函数的定义和非负定性条件,以上协方差函数和变异函数关系式更加清晰地表明，协方差函数和变异函数为空间结构的对偶

13、描述方式。对于区域化变量，协方差函数从相似角度来描述空间结构，变异函数则从差异角度描述空间结构。二阶平稳性假设下，协方差函数和变异函数存在相互转换关系。,20,变异函数的定义和非负定性条件,在协方差函数和变异函数中，如果空间滞后h以极坐标参考系中的矢量表示，则该滞后矢量有模和方向两个特征量。当协方差函数和变异函数仅为模值|h|的函数时，称其为各向同性协方差函数和变异函数。否则，当协方差函数和变异函数同时为模值|h|和方向的函数时，称其为各向异性协方差函数和变异函数。各向同性为各向异性的特例。协方差函数和变异函数的各向异性可以分解为几何各向异性和带状各向异性。基台相同，变程随方向不

14、同的各向异性称为几何各向异性。不能通过伸缩比例变换为各向同性的各向异性称为带状各向异性。,21,变异函数的定义和非负定性条件,通常，把360度方向离散划分为几个大的方向组，在某一角度区间范围(角度容许范围)内不同方向的样本点(对)都用来计算该区间中心方向的变异函数值。类似地，可以进行空间滞后距离分组，在某一距离区间范围(距离容许范围)内，不同距离的样本点(对)都用来计算该区间中心距离的变异函数值。,22,变异函数的定义和非负定性条件,23,变异函数的定义和非负定性条件,变异函数模型拟合及其评价,理想上，变异函数值随着空间滞后h的增大而单调增加。,24,一种典型变异函数曲线(variogra

15、phy),图中的变异函数(h)具有三个参数a, C0, C0+C。 a称为变程，是变异函数达到基台值时的空间滞后h，反映了数据空间自相关的最大距离。 C0称为块金值，是空间滞后为0时的变异函数值，为测量误差和低于采样间距的随机变异的综合反映。当空间滞后h超过变程a时，变异函数(h)在一个极限值()附近摆动，这个极限值称为基台值C+C0。,通常，一个区域化变量的取值z由大尺度趋势、微尺度空间相关变异r和纯随机变异三部分构成，即z= + r + 。期望(或平均值) 即是一种趋势表示。微尺度空间相关变异r为去除趋势后具有内在空间(自)相关性的残余值纯随机变异为不存在空间(自)相关性的独立噪声

16、(如测量误差)。测量误差和采样间距(采样尺度)以下的微尺度空间相关残余值一起构成金块值C0。采样间距(采样尺度)以上的微尺度空间相关残余值的变异函数值为C。,25,变异函数模型拟合及其评价,按照二阶平稳性或内蕴平稳性假设下的变异函数表达式(h)，计算h=0时的变异函数值应该为0，表示同一位置点的样本值没有差异，然而，这种(0)=0的情形是在没有测量误差和采样间距(采样尺度)以下空间(自)相关变异的理想结果。实际应用中，测量误差总是无法避免，采样间距总是掩盖了一些更小尺度的空间变异。尽管带有块金值的变异函数模型失去了理想变异函数模型在原点处的连续性，但是该模型合理地模拟了实际变异(测量误差和小于采样间距尺度下的空间变异)，所以能更好地提高后续克里金估计的精度。,26,变异函数模型拟合及其评价,理论变异函数模型的构建是一项基础性研究，原则上满足条件非负定性(或非负定性)的函数都可以作为候选的有效变异函数(有效协方差函数)。

展开阅读全文