ArcGIS应用10－金锄头文库

资源描述

《ArcGIS应用10》由会员分享，可在线阅读，更多相关《ArcGIS应用10（67页珍藏版）》请在金锄头文库上搜索。

1、第十章地统计分析地统计分析方法被广泛应用于许多领域，已成为空间统计学的一个重要分支。很长时间以来，地统计分析一直没能很好的和GIS分析模型紧密结合在一起，成为GIS软件一大遗憾。ArcGIS地统计分析模块在地统计学与GIS之间架起了一座桥梁，使得复杂的地统计方法可以在软件中得以实现，体现了以人为本、可视化发展的趋势。ArcGIS与地统计方法的结合具有重要的开创性意义，通过测定预测表面的统计误差，GIS应用人员首次能够对预测表面的模型质量进行量化。本章主要通过对地统计分析的概念介绍，逐步引导读者应用ArcGIS地统计分析解决实际问题。10.1 地统计基础10.1.1 基本原理地统计（Geost

2、atistics）又称地质统计，是法国著名统计学家G. Matheron在大量理论研究的基础上逐渐形成的一门新的统计学分支。它是以区域化变量为基础，借助变异函数，研究既具有随机性又具有结构性，或具有空间相关性和依赖性的自然现象的一门科学。凡是与空间数据的结构性和随机性，或空间相关性和依赖性，或空间格局与变异有关的研究，并对这些数据进行最优无偏内插估计，或模拟这些数据的离散性、波动性时，皆可应用地统计学的理论与方法。地统计学与经典统计学的共同之处在于：它们都是在大量采样的基础上，通过对样本属性值的频率分布、均值、方差等关系及其相应规则的分析，确定其空间分布格局与相关关系。但地统计学区别于经典统计

3、学的最大特点是：地统计学既考虑到样本值的大小，又重视样本空间位置及样本间的距离，弥补了经典统计学忽略空间方位的缺陷。地统计分析理论基础包括前提假设、区域化变量、变异分析和空间估值。1. 前提假设（1）随机过程与经典统计学相同的是，地统计学也是在大量样本的基础上，通过分析样本间的规律，探索其分布规律，并进行预测。地统计学认为研究区域中的所有样本值都是随机过程的结果，即所有样本值都不是相互独立的，是遵循一定的内在规律的。因此地统计学就是要揭示这种内在规律，并进行预测。（2）正态分布在统计学分析中，假设样本是服从正态分布的，地统计学也不例外。在获得数据后首先应对数据进行分析，若不符合正态分布的假

4、设，应对数据进行变换，转为符合正态分布的形式，并尽量选取可逆的变换形式。（3）平稳性对于统计学而言，重复的观点是其理论基础。统计学认为，从大量重复的观察中可以进行预测和估计，并可以了解估计的变化性和不确定性。对于大部分的空间数据而言，平稳性的假设是合理的。这其中包括两种平稳性：一类是均值平稳，即假设均值是不变的并且与位置无关；另一类是与协方差函数有关的二阶平稳和与半变异函数有关的内蕴平稳。二阶平稳是假设具有相同的距离和方向的任意两点的协方差是相同的，协方差只与这两点的值相关而与它们的位置无关。内蕴平稳假设是指具有相同距离和方向的任意两点的方差（即变异函数）是相同的。二阶平稳和内蕴平稳都是为了

5、获得基本重复规律而作的基本假设，通过协方差函数和变异函数可以进行预测和估计预测结果的不确定性。2. 区域化变量当一个变量呈现一定的空间分布时，称之为区域化变量，它反映了区域内的某种特征或现象。区域化变量与一般的随机变量不同之处在于，一般的随机变量取值符合一定的概率分布，而区域化变量根据区域内位置的不同而取不同的值。而当区域化变量在区域内确定位置取值时，表现为一般的随机变量，即，它是与位置有关的随机变量。在实际分析中，常采用抽样的方式获得区域化变量在某个区域内的值，即此时区域化变量表现为空间点函数：（10.1）根据其定义，区域化变量具有两个显著特征：即随机性和结构性。首先，区域化变量是一个随机变

6、量，它具有局部的、随机的、异常的特征；其次，区域化变量具有一定的结构特点，即变量在点x与偏离空间距离为h的点x+h处的值Z(x)和Z(x+h)具有某种程度的相似性，即自相关性，这种自相关性的程度依赖于两点间的距离h及变量特征。除此之外，区域化变量还具有空间局限性（即这种结构性表现为一定范围内）、不同程度的连续性和不同程度的各向异性（即各个方向表现出的自相关性有所区别）等特征。3. 变异分析（1）协方差函数协方差又称半方差，表示两随机变量之间的差异。在概率论中，随机变量X与Y的协方差定义为：（10.2）借鉴上式，地统计学中的协方差函数可表示为：（10.3）其中，Z(x)为区域化随机变量，并满足

7、二阶平稳假设，即随机变量Z(x)的空间分布规律不随位移而改变；h为两样本点空间分隔距离；为Z(x)在空间点处的样本值；是Z(x)在处距离偏离h的样本值i=1,2,N(h)；N(h)是分隔距离为h时的样本点对总数；和分别为和的样本平均数，即：（10.4）（10.5）上式中，n为样本单元数。一般情况下，（特殊情况下可以认为近似相等）。（2）半变异函数半变异函数又称半变差函数、半变异矩，是地统计分析的特有函数。区域化变量Z(x)在点x和x+h处的值Z(x)与Z(x+h)差的方差的一半称为区域化变量Z(x)的半变异函数，记为r(h)，2r(h)称为变异函数。根据定义有：（10.6）即（10.7）区

8、域化变量Z(x)满足二阶平稳假设，因此对于任意的h有：（10.8）因此，半变异函数可改写为：（10.9）由上式可知，半变异函数依赖于自变量x和h，当半变异函数r(x,h)仅仅依赖于距离h而与位置x无关时，r(x,h)可改写为r(x)，即：（10.10）具体表示为：（10.11）各变量的含义同前。也有将r(h)称为变异函数，两者使用上不引起本质上的差别。（3）变异分析半变异函数和协方差函数把统计相关系数的大小作为一个距离的函数，是地理学相近相似定理的定量化。图10.1和图10.2为一典型的半变异函数图和其对应的协方差函数图。c(h)图10.2 协方差函数图r(h)图10.1 半变异函数图偏基台

9、值(Partial Sill)块金(Nugget)基台值(Sill)变程(Range)距离（h）距离（h）偏基台值(Partial Sill)块金(Nugget)变程(Range)基台值(Partial Sill)图10.1和图10.2显示，半变异值的变化随着距离的加大而增加，协方差随着距离的加大而减小。这主要是由于半变异函数和协方差函数都是事物空间相关系数的表现，当两事物彼此距离较小时，它们是相似的，因此协方差值较大，而半变异值较小；反之，协方差值较小，而半变异值较大。此外，协方差函数和半变异函数随着距离的加大基本呈反向变化特征，它们之间的近似关系表达式为：（10.12）半变异函数曲线图和协

10、方差函数曲线反映了一个采样点与其相邻采样点的空间关系。此外，它们对异常采样点具有很好的探测作用，在ArcGIS地统计分析模块中可以使用两者中的任意一个，一般采用半变异函数。在半变异曲线图中有两个非常重要的点：间隔为0时的点和半变异函数趋近平稳时的拐点，由这两个点产生四个相应的参数：块金值（Nugget）、变程（Range）、基台值（Sill）和偏基台值（Partial Sill）。其含义如下：块金值（Nugget）：理论上，当采样点间的距离为0时，半变异函数值应为0；但由于存在测量误差和空间变异，使得两采样点非常接近时，它们的半变异函数值不为0，即存在块金值。测量误差是仪器内在误差引起的，空间

11、变异是自然现象在一定空间范围内的变化。它们任意一方或两者共同作用产生了块金值。基台值（Sill）：当采样点间的距离h增大时，半变异函数r(h)从初始的块金值达到一个相对稳定的常数时，该常数值称为基台值。当半变异函数值超过基台值时，即函数值不随采样点间隔距离而改变时，空间相关性不存在。偏基台值（Partial Sill）：基台值与块金值的差值。变程（Range）：当半变异函数的取值由初始的块金值达到基台值时，采样点的间隔距离称为变程。变程表示了在某种观测尺度下，空间相关性的作用范围，其大小受观测尺度的限定。在变程范围内，样点间的距离越小，其相似性，即空间相关性越大。当hR时，区域化变量Z(x)的

12、空间相关性不存在，即当某点与已知点的距离大于变程时，该点数据不能用于内插或外推。当限定的样本点间隔过小时，可能出现曲线图上所有r(h) Nugget，即曲线为一近似平行于横坐标的直线，此时半变异函数表现为纯块金效应。这是由于所限定的样本间隔内，点与点的变化很大，即各个样点是随机的，不具备空间相关性，区域内样点的平均值即是最佳估计值。此时只有增大样本间隔，才能反映出样本间的空间相关性。空间相关性的强弱可由Partial_Sill/Sill来反映，该值越大，空间相关性越强。相应地，Nugget/Sill称为基底效应，表示样本间的变异特征，该值越大，表示样本间的变异更多得是由随机因素引起的。4. 空

13、间估值一个完整的地统计分析过程，或者说空间估值过程，一般为：首先，获取原始数据，检查、分析数据，找寻数据暗含的特点和规律，比如是否为正态分布、有没有趋势效应、各向异性等等；然后，选择合适的模型进行表面预测，包括半变异模型的选择和预测模型的选择；最后，检验模型是否合理或对几种模型进行对比。尽管在ArcGIS中利用地统计分析模块完成上述过程非常简单，但是遵循一个结构化处理过程仍很重要，如图10.3所示。（1）数据显示在ArcMap数据视图窗口中添加并显示待分析的数据图层。数据显示数据检查模型拟合模型诊断模型比较13245图10.3 空间估值流程图（2）数据检查分析数据集的统计属性，对数据进行深

14、入了解。数据检查内容包括检验数据分布、寻找数据离群值、全局趋势分析、探测空间自相关及方向变异，以及多数据集协变分析。（3）模型拟合基于对数据的认识，初步选择一个认为合适的模型创建表面。全面的数据检查有助于选择出合适的模型。（4）模型诊断评估模型的输出（表面），了解所选模型对未知值的预测效果。诊断的主要内容包括：预测的准确性；模型的有效性。（5）模型比较通过设置不同参数或者选择多个可选模型创建表面，通过对比分析可以确定哪个模型能更好得预测未知值。10.1.2克里格插值克里格插值（Kriging）又称空间局部插值法，是以变异函数理论和结构分析为基础，在有限区域内对区域化变量进行无偏最优估计的

15、一种方法，是地统计学的主要内容之一。南非矿产工程师D.R.Krige（1951年）在寻找金矿时首次运用这种方法，法国著名统计学家G.Matheron随后将该方法理论化、系统化，并命名为Kriging，即克里格方法。克里格方法的适用范围为区域化变量存在空间相关性，即如果变异函数和结构分析的结果表明区域化变量存在空间相关性，则可以利用克里格方法进行内插或外推；否则不适用。其实质是利用区域化变量的原始数据和变异函数的结构特点，对未知样点进行线性无偏、最优估计。无偏是指偏差的数学期望为0，最优是指估计值与实际值之差的平方和最小。也就是说，克里格方法是根据未知样点有限邻域内的若干已知样本点数据，在考虑了样本点的形状、大小和空间方位，与未知样点的相互空间位置关系，以及变异函数提供的结构信息之后，对未知样点进行的一种线性无偏最优估计。空间插值确定性插值全局性插值：全局多项式插值局部性插值径向基插值地统计插值反距离权插值局部多项式插值普通克里格插值概率克里格插值简单克里格插值泛克里格插值析取克里格插值协同克里格插值图10.4 空间插值分类图一地

展开阅读全文