地学统计第一章

上传人:s9****2 文档编号:569327605 上传时间:2024-07-28 格式:PPT 页数:231 大小:6.72MB
返回 下载 相关 举报
地学统计第一章_第1页
第1页 / 共231页
地学统计第一章_第2页
第2页 / 共231页
地学统计第一章_第3页
第3页 / 共231页
地学统计第一章_第4页
第4页 / 共231页
地学统计第一章_第5页
第5页 / 共231页
点击查看更多>>
资源描述

《地学统计第一章》由会员分享,可在线阅读,更多相关《地学统计第一章(231页珍藏版)》请在金锄头文库上搜索。

1、地学计算方法地学计算方法资源与环境学院 杨勇2024/7/281设想一下这样的问题设想一下这样的问题n n ?这块地的土壤养分情况如何?不仅需要知道一个总体情况而是要知道每个地方的不同含量方便为那些含量低的地方施肥该怎么办呢?该怎么办呢?2024/7/282方案一方案一Step1: 密集采样Step2: 把土样运回实验室Step3: 晒干,磨碎,.化学分析耗时,耗力,耗财得到的是点状数据得到的是点状数据面状连续分布呢?面状连续分布呢?未采样地的状况如何呢?未采样地的状况如何呢?2024/7/283方案二方案二算法分析2024/7/284实例:实例:(a)有机质 (b)全氮(c)有效磷 2024

2、/7/285安排安排n n共32学时,讲授教材中的大部分章节n n考核方法:平时成绩(40%)+期末考试成绩(60%,闭卷考试)2024/7/2861.1 地统计学的发展和概念地统计学的发展和概念n n一、地统计学发展简史n n地统计学(Geostatistics)是20世纪50年代初在南非采矿业中为了计算矿石储量而发展应用起来的,首先被采矿工程师Krige和统计学家Sichel应用于南非的采矿工作中。n n50年代后期,法国Matheron在此基础上提出了区域化变量理论,形成了地统计学的基本框架。2024/7/287地统计学发展简史地统计学发展简史n n70年代,计算机的出现,这项技术被引入

3、到地学领域。1975年在罗马举行了关于该学科的第一个国际性会议后,陆续有多个相关国际会议举行。n n我国的地统计学研究和应用是1977年由侯景儒、黄竞先等首先进行的。n n现已广泛运用于地质、土壤、农业、气象、海洋、生态、森林和环境治理等方面2024/7/288二、地统计学的概念二、地统计学的概念n n定义:地统计学是以区域化变量理论为基础,以变异函数为主要工具,研究那些在空间分布上既有随机性又有结构性,或空间相关性和依赖性的自然现象的科学。(王政权,1999)2024/7/289地统计学与经典统计学的区别地统计学与经典统计学的区别1n n经典统计学的变量必须是纯随机变量,即其取值按某种概率分

4、布而变化;n n地统计学研究的变量不是纯随机变量,而是区域化变量,该区域化变量根据其在一个域内的空间位置取不同值,它是随机变量与位置有关的随机函数。因此,地统计学中的区域化变量既有随机性,又有结构性。2024/7/2810地统计学与经典统计学的区别地统计学与经典统计学的区别2n n经典统计学所研究的变量理论上可无限次重复或进行大量重复观测试验。n n而地统计学研究的变量不能进行这样的重复试验。因为区域化变量一旦在某一空间位置上取得一次样品后,就不可能在同一位置再次取得该样品,即区域化变量取值仅有一次。2024/7/2811地统计学与经典统计学的区别地统计学与经典统计学的区别3n n经典统计学的

5、每次抽样必须独立进行,要求样本中各个取值之间相互独立。n n而地统计学中的区域化变量是在空间不同位置取样,因而,两个相邻样品中的值不一定保持独立,具有某种程度的空间相关性。2024/7/2812地统计学与经典统计学的区别地统计学与经典统计学的区别4n n经典统计学以频率分布图为基础研究样本的各种数字特征。n n地统计学除了要考虑样本的数字特征外,更主要的是研究区域化变量的空间分布特征。因此,地统计学的主要研究室围绕着变量的空间分布理论和估计方法。2024/7/28131.2 地统计学的应用(土壤)地统计学的应用(土壤)n n土壤属性的空间分布特征是土壤污染治理、土地管理和现代农业的重要依据之一

6、。n n土壤是一个形态和过程都相当复杂的自然综合体,成土过程中不同的物理、化学、生物等因素的影响,使得土壤性质具有高度的空间异质性。人类活动进一步加剧了土壤属性的变异性和不确定性。n n同时,土壤本身处于一个时刻变化的动态过程,因此,对土壤空间性质进行描述和定律研究相当困难。2024/7/28141.2 地统计学的应用(土壤)地统计学的应用(土壤)n n自上世纪七八十年代地统计学引入土壤学研究中以来,随着学科发展和应用方向的扩展,地统计学方法已经成为土壤学特别是大尺度土壤学研究的一个重要工具。n n地统计学在土壤物理性质空间变异中的应用地统计学在土壤物理性质空间变异中的应用n n地统计学在土壤

7、化学性质空间变异中的应用地统计学在土壤化学性质空间变异中的应用n n地统计学在土壤重金属污染空间变异中的应用地统计学在土壤重金属污染空间变异中的应用n n地统计学在采样策略中的应用地统计学在采样策略中的应用n n地统计学在其他特性中的应用地统计学在其他特性中的应用2024/7/2815地统计学在土壤物理性质空间变异中的应用地统计学在土壤物理性质空间变异中的应用湖北咸宁据:罗勇,陈家宙,2008土壤容重空间变异土壤饱和导水率空间变异2024/7/2816地统计学在土壤化学性质空间变异中的应用地统计学在土壤化学性质空间变异中的应用(a)有机质(b)全氮(c)有效磷 (d)速效钾 湖北沙洋据:杨勇,

8、贺立源,20102024/7/2817地统计学在土壤重金属污染空间变异中的应用地统计学在土壤重金属污染空间变异中的应用武汉市东湖高新技术开发区据:张贝,杨勇,2010 2024/7/28181.3 地统计学在土壤科学中的应用展望地统计学在土壤科学中的应用展望n n地统计学和土壤多源数据的处理利用多源的相关数据预测目标属性的分布利用多源的相关数据预测目标属性的分布n n地统计学和土壤过程的空间建模利用多源数据模拟土壤发生发展的过程利用多源数据模拟土壤发生发展的过程n n地统计学和土壤特性的不确定性模拟土壤属性超过某一阈值的概率土壤属性超过某一阈值的概率n n地统计学和土壤过程的时空变异n n地统

9、计学与精确农业n n土壤综合特性的空间变异性研究2024/7/2819第二章第二章 样本数据的样本数据的统计分析和预处理统计分析和预处理资源与环境学院 杨勇2024/7/2820目录目录n n描述性统计描述性统计n n频数分布频数分布n n集中趋势的度量集中趋势的度量n n离散型度量离散型度量n n偏度和峰度偏度和峰度n n数据检验和分布分析数据检验和分布分析n n异常值的识别和处理异常值的识别和处理n n正态分布的检验方法正态分布的检验方法n n数据转换处理数据转换处理n n相关分析和回归分析相关分析和回归分析n n回归分析回归分析n n相关分析相关分析2024/7/2821总体,样本和随机

10、样本总体,样本和随机样本n n总体总体总体总体是指根据统计分析或研究目的而确定的同类是指根据统计分析或研究目的而确定的同类事物或现象的全体,有时也把具有共同性质的元事物或现象的全体,有时也把具有共同性质的元素所组成的集合称为总体。素所组成的集合称为总体。n n从总体中抽取若干个元素而构成的集合叫从总体中抽取若干个元素而构成的集合叫样本样本样本样本n n在抽选样本时,总体的每一个元素被抽中的概率在抽选样本时,总体的每一个元素被抽中的概率相同,这时样本就称为相同,这时样本就称为随机样本随机样本随机样本随机样本。n n在随机抽取的样本的条件下,样本的分布规律与在随机抽取的样本的条件下,样本的分布规律

11、与总体的分布规律相似,即样本在一定程度上反映总体的分布规律相似,即样本在一定程度上反映了总体的分布。了总体的分布。2024/7/28222.1 描述性统计描述性统计n n频数分布:测量尺度中的类在某测量集合中出现次频数分布:测量尺度中的类在某测量集合中出现次数的汇总,说明实测值在测量尺度上的分布情况。数的汇总,说明实测值在测量尺度上的分布情况。n n离散型频率分布:离散型频率分布:n n连续型频率分布:(直方图)连续型频率分布:(直方图)实例见表2-3 和 图2-22024/7/2823集中趋势的度量集中趋势的度量n n反映数据分布集中趋势的参数n n算术平均数:n n中位数:如果样本数据资料

12、中的全部观测值从小到大一次排列,处于中间位置的观测值称为中位数。n n分位数:n n众数:频率直方图中对应最大频数的那一组中的组中值。2024/7/2824离散型度量离散型度量n n极差:n n四分位差:n n离均差:n n方差:总体方差:n nn n样本方差:总体标准差:样本标准差2024/7/2825离散型度量离散型度量n n变异系数:样本变量的相对变异量,可以比较不同样本相对变异程度大小n n标准分和标准化变量:标准分:用于刻画数据与均值相对于标准差的偏离程度2024/7/2826偏度和峰度偏度和峰度n n偏度系数:描述分布的偏斜程度Sk=0,对称分布;Sk0,正偏(右偏),较小的数据比

13、较集中;Sk0,频数分布的曲线峰高于正态分布,称为尖顶峰度Ku lnXn n平方根转换:n n反正弦转换n n2024/7/28482.3 相关分析和回归分析相关分析和回归分析n n回归分析:是确定两种或两种以上变数间相互依回归分析:是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和变量之间的关系类型,可分为线性回归分析和非

14、非线性回归线性回归分析。如果在回归分析中,只包括一个分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为量,且因变量和自变量之间是线性关系,则称为多元线性回归多元线性回归分析。分析。 2024/7/2849回归分析回归分析n n如一元线性回归模型:n nX,Y的联合观测结果:n n则估计参数为:n n标准估计误差:2024

15、/7/2850回归分析回归分析n n回归效果显著性检验:n n总平方和:数据总的变动n n回归平方和:被回归方程解释的部分被回归方程解释的部分n n残差平方和:未被回归方程解释的部分未被回归方程解释的部分2024/7/2851回归分析回归分析n n回归效果显著性检验:n n(1)决定系数:用来度量回归值与实际观测值拟合的优良程度,用来度量回归值与实际观测值拟合的优良程度,越接近越接近1 1,拟合效果越好,拟合效果越好n n(2)F检验:若若,则认为回归效果显著,否则认为不显著,其中,则认为回归效果显著,否则认为不显著,其中是自由度为(是自由度为(1,n-2)1,n-2)的的F F分布水平分布水

16、平a a上侧的分位数。上侧的分位数。2024/7/2852相关分析相关分析n n研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。相关系数:取值范围为-1,1,大于0为正相关,小于0为负相关,绝对值越接近1,相关性越大。2024/7/2853第三章第三章 地统计学基础地统计学基础理论理论资源与环境学院 杨勇2024/7/2854目录目录n n随机函数及其实现n n区域化变量n n概率分布n n平稳假设n n平稳性平稳性n n二阶平稳性二阶平稳性n n本证假设n n变异函数和协方差函数n n协方差和变异函数的关系等式

17、协方差和变异函数的关系等式n n协方差函数、自相关函数和变异函数的一些性质协方差函数、自相关函数和变异函数的一些性质2024/7/2855n n地统计学是统计学在地学领域应用的分支,所以统计学的一些基本概念,如均值,方差,协方差等,在地统计学中仍有用,但地统计学也存在区别2024/7/2856随机函数及其实现随机函数及其实现n n如在某地所采的样品,每个实测值都是一个区域化值,即实测值z(xi)都来自于随机变量Z(xi)。在每个点xi处,值的作用机制可能不同。n n经典统计学:经典统计学:所有样品都是随机和独立的,不考虑样品的所有样品都是随机和独立的,不考虑样品的确切位置及样品之间的相互关系。

18、确切位置及样品之间的相互关系。n n趋势面分析(运用最小二乘法拟合一个二元非线性函数趋势面分析(运用最小二乘法拟合一个二元非线性函数):):每个点就是随机变量的样品点,整个面上不同点的随每个点就是随机变量的样品点,整个面上不同点的随机变量有同种类型的概率分布,但有不同的总体平均值,机变量有同种类型的概率分布,但有不同的总体平均值,这样,其涉及的空间结构仅仅指样品的位置这样,其涉及的空间结构仅仅指样品的位置2024/7/2857随机函数及其实现随机函数及其实现n n地统计学:每个点都表达了遵从某类概率分布的一个随机变量的样品点,这些随机变量的平均值、方差和分布形式可能完全不同于面上其他点处随机变

19、量的平均值、方差和分布形式。因此,样品点来自于具有不同分布的随机变量组,地统计学通过样品间的关系来研究其空间结构。2024/7/2858随机函数及其实现随机函数及其实现n n在一、二、三维空间上任意点xi处的随机变量Z(xi)被视为一个随机函数Z(x)。随机函数包括区域性和随机性两方面。n n区域性:数值来源于1个物理环境,并且在一定程度上依赖于其所处的区域位置。n n随机性:某位置上的值,不能用一个简单的确定性函数z(x)来模拟,还有其他随机因素的作用。2024/7/2859随机函数及其实现随机函数及其实现样品随机变量区域化变量随机函数随机函数模型的建立2024/7/2860随机函数及其实现

20、随机函数及其实现 现实世界实测采样定性信息运算处理描述性统计探索式数据分析探索式变异分析 概率模型概念工具随机变量区域化变量随机函数运算处理估值模拟随机函数假设分析变异函数模型结果应用于现实世界2024/7/28612.2 区域化变量区域化变量n n地统计学研究那些分布于空间中并显示出一定结构性和随机性的自然现象n n当一个变量呈空间分布时,称之为“区域化”。这种变量常常反映某种空间现象的特征,用区域化变量描述的现象称之为区域化现象。如生态学、土壤学和地质学中许多研究的变量都具有空间分布的特点,实质上都是区域化变量。2024/7/28622.2 区域化变量区域化变量重申重申2个概念个概念n n

21、随机变量:表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)各种结果的变量。往往用大写字母X,Y,Z表示,而小写字母x,y,z表示相应的随机变量取得的具体数值。n n随机函数:定义在试验空间X内每个点xi的随机变量的集合:2024/7/28632.2 区域化变量区域化变量n n在研究区域内所有点处的样品数据的实测值就是一个区域化值,其相应的函数z(x)就是一个区域化变量,也是该区域随机模型(函数)Z(x)的一个实现。n n假设在研究区D内采集了土壤的一种属性,样点个数为n,其观测值为:z(xi) i=1,2,n则区域化变量定义为:z(x) xD,数据集z(xi) 是来自于随机

22、函数Z(x)的一个特定实现,即区域化变量z(x)的样品实现值集合。2024/7/28642.2 区域化变量区域化变量几个性质几个性质n n1、随机性:局部的、随机的、异常的性质局部的、随机的、异常的性质我的取值我做主2024/7/28652.2 区域化变量区域化变量几个性质几个性质n n2、结构性:变量在点变量在点X X与点与点X+hX+h(h h为距离)处为距离)处的数值的数值Z(x)Z(x)与与Z(x+h)Z(x+h)具有某种程度的自相关。这具有某种程度的自相关。这种自相关依赖于两点间的距离种自相关依赖于两点间的距离h h及变量特征。及变量特征。h1h2x1x2x3h1=h2则|x1-x2

23、|=|x2-x3|2024/7/28662.2 区域化变量区域化变量几个性质几个性质n n3、空间局限性:被限制在一定的空间范围内,被限制在一定的空间范围内,在该范围之外,变量的属性为在该范围之外,变量的属性为0 0。这里建房了,没有土壤,我没有值2024/7/28672.2 区域化变量区域化变量几个性质几个性质n n4、不同程度的连续性:用相邻样点之间的变用相邻样点之间的变异来度量,如土壤厚度连续性强,而土壤有效氮异来度量,如土壤厚度连续性强,而土壤有效氮可能在两个非常靠近的样点上,也可能有很大差可能在两个非常靠近的样点上,也可能有很大差异(块金效应)。异(块金效应)。我们差不多我们差很多2

24、024/7/28682.2 区域化变量区域化变量几个性质几个性质n n5、不同类型的各向异性:若在各个方向上的若在各个方向上的性质变化相同,称为各向同性,反之,称为各向性质变化相同,称为各向同性,反之,称为各向异性。异性。h1h2x1x2x3虽然h1=h2但|x1-x2|x2-x3|2024/7/28692.3 概率分布概率分布n n概率分布表示为:n n含义:P是点x0处的实测值低于某一固定值z的概率,其中n n由此,可以退出二元甚至多元分布函数:n n但实际上,我们常常只能测得随机函数的几个值,不可能据此推断所有点集合的一元或多元分布,由此产生了平稳性的概念来简化该过程。2024/7/28

25、702.4 平稳假设平稳假设n n1、平稳性:表示当将既定的n个点的点集从研究区域某一处移向另一处时,随机函数的性质保持不变,也称为平移不变性。n n即随机函数分布的规律性不因位移而改变,是严格平稳的,具有平稳性。2024/7/28712.4 平稳假设平稳假设n n2、二阶平稳性假设(弱平稳性假设):随机函数的均值为一常数,且任何两个随机变量之间的协方差依赖于它们之间的距离和方向,而不是它们的确切位置:n n条件1:数学期望:反映随机变量取值的集中特征,是随机变量取得数字的代表数。该条件表示:在整个研究区内,区域化变量的数学期望对任意x存在,且等于常数2024/7/2872二阶平稳性假设二阶平

26、稳性假设n n条件条件2 2:在整个研究区内,区域化变量的协方差函:在整个研究区内,区域化变量的协方差函数对任意数对任意x x和和h h存在,且平稳,即:存在,且平稳,即:协方差:两个不同参数之间的方差就是协方差,用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。期望值分别为E(X) = 与 E(Y) = 的两个实数随机变量X与Y之间的协方差协方差定义为:COV(X,Y)=E(X-E(X)(Y-E(Y) ,若两个随机变量X和Y相互独立 ,则他们的协方差为0。2024/7/28732.5 本征假设本征假设n n条件1:n n条件2:r(h)称为半方差函数,也叫变

27、异函数本征假设是地统计学中对随机函数的基本假设事实上,当作用于大区域时,本征假设的第一个条件很难满足,空间变异的漂移或趋势面可能存在,由于这种漂移,第二个条件也不能满足,但地统计学理论的基础是本征假设,因此,有必要去认识一个随机过程是否是平稳性的在研究区域内,区域化变量Z(x)的增量的数学期望对任意x和h存在且等于0在研究区域内,区域化变量的增量Z(x)-Z(x+h)的方差对任意x和h存在且平稳2024/7/2874小结小结n n就严格性而言:n n平稳性假设二阶平稳性假设本征假设n n本征假设是地统计学中对随机函数的基本假设2024/7/28752.6 变异函数和协方差函数变异函数和协方差函

28、数n n变异函数和协方差函数存在以下关系:2024/7/28762.6 变异函数和协方差函数变异函数和协方差函数性质性质n n1、自相关性:自相关函数值在1和-1之间n n2、对称性:n n3、正半定条件:任意一个协方差矩阵都是正定的。n n4、连续性:r(0)=0,在h=0时,变异函数为0,随后随着h的增加,r(h)也增加。但实际上存在块金效应,即当h趋近于0时,r(h)接近某一正值。2024/7/28772.6 变异函数和协方差函数变异函数和协方差函数性质性质n n5、单调递增:r(h)随着h的增加而增加。n n6、基台值和变程:基台值变程块金值2024/7/28782.6 变异函数和协方

29、差函数变异函数和协方差函数性质性质n n7、无基台值的变异函数:随着h的增大,r(h)无限增加。n n8、孔穴效应:有时变异函数的r(h)在达到最大值后开始减小,然后又增大,呈现一种周期波动的变化孔穴效应: (a)有基台值,(b)无基台值2024/7/28792.6 变异函数和协方差函数变异函数和协方差函数性质性质n n各向异性:各个方向的空间变异不同n n漂移:数学期望不是常数,而是一个以位置x为自变量的函数,即EZ(x)=m(x)。2024/7/2880协方差具体计算方法协方差具体计算方法n n设Z(x)为区域化随机变量,并满足二阶平稳条件,h为两样本点空间分割距离,Z(xi)和Z(xi+

30、h)分别是Z(x)在空间位置xi和xi+h上的观测值,则协方差函数的计算公式为:N(h)是分隔距离为h时的样本对数总数2024/7/2881协方差具体计算方法协方差具体计算方法n n一般情况下,如果n n,则上式可写成:n n自相关函数计算公式为:,其中2024/7/2882变异函数计算实例变异函数计算实例n n公式:值分别是:4,3,4,5,7,9,7,8,7,7,则:2024/7/28832024/7/28842024/7/2885变异函数散点图变异函数散点图2024/7/2886(网格距离为(网格距离为100)?2024/7/2887计算结果计算结果2024/7/2888计算结果计算结果

31、2024/7/2889西北和东南方向西北和东南方向2024/7/2890第四章第四章 变异函数和拟变异函数和拟合模型合模型资源与环境学院 杨勇2024/7/2891目录目录n n半方差函数n n影响半方差函数的因素n n变异函数的理论拟合模型变异函数(半方差函数)变异函数(半方差函数)变异函数(半方差函数)变异函数(半方差函数)r(h)r(h)是地统计学的基石是地统计学的基石是地统计学的基石是地统计学的基石2024/7/28924.1 半方差函数半方差函数半方差云图半方差云图表示两个实测值之间差的一半,称为半方差值,一般意义上,半方差值会随着两点间距离的加大而加大,这是因为距离相近的样品点的性

32、质较为相似。根据点对之间的空间滞后距离h将所有半方差值绘制成的散点图称为半方差云图(如下图,红色圈内为特异值)2024/7/28934.1 半方差函数半方差函数经验半方差函数经验半方差函数n n在实践中,一般是将滞后距(在实践中,一般是将滞后距(h h)划分为不同的级)划分为不同的级别,计算每个滞后级别上的平均半方差值,进而别,计算每个滞后级别上的平均半方差值,进而得到经验半方差值和经验半方差图来分析数据的得到经验半方差值和经验半方差图来分析数据的空间关系。空间关系。表示滞后级别,更为常见的表示方法为:2024/7/2894n n一般地,在实际计算时,假设步长为lag,当前滞后级别为n(n为正

33、整数),则h=n*lag,应该这样处理:n n(1 1)研究区所有点,找到点对()研究区所有点,找到点对(P Pi i,P,Pj j),其符合条件:),其符合条件:(n-1)*lagdis (P(n-1)*lagdis (Pi i,P,Pj j)=n*lag)=n*lag,它们之间的距离记为,它们之间的距离记为DISDISi in n(2 2)计算)计算z(pz(pi i)-z(p)-z(pj j) )2 2, ,记为记为S Si i. .n n(3 3)设找到)设找到N(h)N(h)个这样的点对,计算平均距离个这样的点对,计算平均距离n n(4 4)计算)计算,为,为n n滞后级别上的经验半

34、方滞后级别上的经验半方差值。差值。n n(5 5)将各个级别的()将各个级别的(h havgavg,r*(hr*(havgavg) )),绘制在图上,形成),绘制在图上,形成经验半方差图经验半方差图2024/7/2895经验半方差图经验半方差图2024/7/2896课堂练习课堂练习n n假设给出某地土壤元素含量采样数据,其格式为(x,y,k),共N个采样点,其中,x和y分别表示采样点的横纵坐标值,k为实验室测得的元素含量值,步长为h,试给出相应的程序步骤,计算该区域内土壤元素的经验半方差图。(需计算的最大滞后据为样点间最大距离的一半)2024/7/28972024/7/2898变异函数的一些现

35、象变异函数的一些现象n n1、跃迁现象当h超过某一个范围,例如变程a,变异函数r(h)不再增大,而是在一个极限值r()附件摆动,这种现象称为“跃迁现象”2024/7/2899变异函数的一些现象变异函数的一些现象n n2、块金效应当h=0时,变异函数r(h)不等于0,而是等于1个常数C0,这种现象称为“块金效应”2024/7/28100变异函数的一些现象变异函数的一些现象n n3、各向异性2024/7/281014.2 影响半方差函数的因素影响半方差函数的因素n n一、统计方面n n1 1、统计分布:特异值的影响,、统计分布:特异值的影响,极大或极小值越靠近区域中间,极大或极小值越靠近区域中间,

36、影响越大。采样数据的不均匀影响越大。采样数据的不均匀分布(分布(h-h-散点图)。散点图)。n n2 2、屏蔽:特异值可能是错误的、屏蔽:特异值可能是错误的值,也可能是真实的值,可区值,也可能是真实的值,可区分对待。如果检查发现时错误分对待。如果检查发现时错误的值,必须去除。但如果是真的值,必须去除。但如果是真实的值,可以去除,也可以保实的值,可以去除,也可以保留(如污染区的污染物含量值)。留(如污染区的污染物含量值)。n n3 3、偏斜:数据的偏态分布,也、偏斜:数据的偏态分布,也会造成方差的不稳定会造成方差的不稳定异常值对变异函数的影响2024/7/281024.2 影响半方差函数的因素影

37、响半方差函数的因素n n二、样品大小和设计n n1、更多的样品能增强经验半方差值的稳定性,但考虑到工作量和资金,实际取样不可能无限取点,一般要求在变程a以内,各距离上的点对数据部应小于20对,有的学者认为不应小于30对。n n2、在采样的设计上,一般来讲,规则格网采样更有助于后续的分析。2024/7/281034.2 影响半方差函数的因素影响半方差函数的因素n n三、采样间距:应大致地了解变异的空间尺度以三、采样间距:应大致地了解变异的空间尺度以选择一个合适的采样密度。选择一个合适的采样密度。n n(1 1)对于完全未知的领域,不知道变异的尺度或)对于完全未知的领域,不知道变异的尺度或模式,应

38、预采样,找到合适的采样间距模式,应预采样,找到合适的采样间距n n(2 2)若先前的采样间距造成经验半方差函数呈纯)若先前的采样间距造成经验半方差函数呈纯块金效应,没有明显的空间自相关性,则先前的块金效应,没有明显的空间自相关性,则先前的采样间距过大,应缩小。采样间距过大,应缩小。n n(3 3)若依先前的采样间距得到的半方差函数有明)若依先前的采样间距得到的半方差函数有明显的结构,但研究区内样点分布不均匀,则可进显的结构,但研究区内样点分布不均匀,则可进一步优化其分布。一步优化其分布。n n对于第(对于第(1 1)()(2 2)情况,可以采取套合采样解决。)情况,可以采取套合采样解决。202

39、4/7/281044.3 变异函数的理论拟合模型变异函数的理论拟合模型n n理论变异函数用来拟合一些列经验变异函数值,供后续进行插值估计时使用。n n选用理论变异函数模型是,要根据经验半方差图的性状来选取合适的模型2024/7/281054.3 变异函数的理论拟合模型变异函数的理论拟合模型n n变异函数在原点处的性状2024/7/281064.3 变异函数的理论拟合模型变异函数的理论拟合模型n n变异函数的理论模型:n n有基台值模型n n无基台值模型2024/7/28107有基台值模型有基台值模型球状模型球状模型C0:块金常数C0+C :基台值C:拱高a:变程应用最广的模型2024/7/28

40、108有基台值模型有基台值模型指数模型指数模型C0:块金常数C0+C :基台值C:拱高3a:变程当C0=0,C=1时,称为标准指数函数模型2024/7/28109有基台值模型有基台值模型高斯模型高斯模型C0:块金常数C0+C :基台值C:拱高 :变程当C0=0,C=1时,称为标准高斯函数模型2024/7/28110三种常用模型比较三种常用模型比较2024/7/28111有基台值模型有基台值模型线性有基台值模型线性有基台值模型C0:块金常数C0+C :基台值C:拱高A :常数,表示直线斜率当C0=0,C=1时,称为标准指数函数模型2024/7/28112有基台值模型有基台值模型纯块金效应模型纯块

41、金效应模型2024/7/28113无基台值模型无基台值模型线性无基台值模型线性无基台值模型2024/7/28114无基台值模型无基台值模型幂函数值模型幂函数值模型2024/7/28115无基台值模型无基台值模型对数值模型对数值模型2024/7/28116套合模型套合模型n n在实际中,有时区域化随机变量Z(x)的变化相当复杂,往往包含各种尺度及各种层次的变化,反映在变异函数r(h)上,就是单一的模型结构不能将其合理表达,而是多层次的结构相互叠加在一起,地统计学上称为套合。所谓套合结构套合结构,就是把分别出现在不同距离h上或不同方向上同时起作用的变异性组合起来,对全部有效的结构信息,作定量化的概

42、括,以表示区域化变量的主要特征。2024/7/28117套合模型套合模型n n土壤是一个不均与、具有高度空间异质性的复合土壤是一个不均与、具有高度空间异质性的复合体,它与土壤母质、气候、水文、地形和生物等体,它与土壤母质、气候、水文、地形和生物等因素有关,分析土壤空间变异的因素,可将其变因素有关,分析土壤空间变异的因素,可将其变异分为系统变异(土壤形成因素相互作用造成)异分为系统变异(土壤形成因素相互作用造成)和随机变异(可以观测到的,但与土壤形成印务和随机变异(可以观测到的,但与土壤形成印务无关且不能直接分析的)两大类。如由无关且不能直接分析的)两大类。如由h h分开的两分开的两个点个点x

43、x和和x+hx+h的土壤某一性质的土壤某一性质Z(x)Z(x)和和Z(x+h)Z(x+h)。当。当h h趋趋近于近于0 0时,可以认为两点间的差异完全是由取样和时,可以认为两点间的差异完全是由取样和测定误差造成,当测定误差造成,当h h逐步增大,如逐步增大,如h1mh1m,差异可,差异可能还要加上诸如水分等因素,当能还要加上诸如水分等因素,当h100mh100m时,在新时,在新的变异要考虑地形的作用。的变异要考虑地形的作用。2024/7/28118套合模型套合模型n n当当h h一定时,变异函数一定时,变异函数r(h)r(h)应包含小于应包含小于h h的所有影的所有影响因素,因此,绝大多数变异

44、函数都由下面两个响因素,因此,绝大多数变异函数都由下面两个变异函数组成:变异函数组成:n n r(h)=rr(h)=r0 0(h)+r(h)+r1 1(h)(h),即一个代表纯块金方差,一个,即一个代表纯块金方差,一个代表空间相关的方差。一般情况下,套合模型可代表空间相关的方差。一般情况下,套合模型可以用放映各种不同尺度变化的多个变异函数之和以用放映各种不同尺度变化的多个变异函数之和表示,即:表示,即:ri(h)可以是相同的或不同的理论模型2024/7/28119套合模型套合模型n n如,区域化变量Z(x)的变异性由r0(h),r1(h)和r2(h)组成,其中2024/7/28120套合模型套

45、合模型n n三者组成的套合模型为:2024/7/28121套合模型套合模型2024/7/28122套合模型实例套合模型实例n n某区域镍蕴藏量的变异函数计算值2024/7/28123套合模型实例套合模型实例n n镍含量的变异函数曲线图可以看出基台值在2.55左右对头两点作切线与纵坐标相交的交点就是块金值,大约在0.4左右0.4/2.55=0.156则大约16%的误差是随机现象造成的,而空间自相关现象造成的误差为84%2024/7/28124套合模型实例套合模型实例C0=0.4 C1=1.55a1=14 C2=0.6a2=50从图中可看出,理论值与实际值差异较大,尤其是在15到40m之间,因此,

46、需进行反复修改2024/7/28125套合模型实例套合模型实例C0=0.4 C1=1.15a1=12 C2=1a2=60从图中可看出,理论值与实际值差异拟合较好2024/7/28126变异函数理论模型的最优拟合变异函数理论模型的最优拟合n n要使变异函数的理论模型真实地描述变量的变化规律,在建立理论模型过程中,要对模型进行最优拟合,即确定模型中各个参数的值。n n地统计学中,拟合过程主要包括三个步骤:确定曲线类型、参数最优估计、最优曲线的确定。2024/7/28127最优拟合最优拟合确定曲线类型确定曲线类型n n一般来讲,通过(h,r(h)散点图确定曲线的大致类型或初步类型,对这个大致的初步类

47、型进行参数最优估计,确定是否为最优曲线。2024/7/28128最优拟合最优拟合参数最优估计参数最优估计n n变异函数的理论模型主要是曲线模型,将曲线模型经过适当的变换,变异函数的理论模型主要是曲线模型,将曲线模型经过适当的变换,化为线性模型,然后用最小二乘法原理求未知参数的估计。化为线性模型,然后用最小二乘法原理求未知参数的估计。2024/7/28129最优拟合最优拟合参数最优估计参数最优估计n n上表式地统计学中常用的变异函数理论模型经过适当变换后,化为的线性模型,对于球状模型、指数模型和高斯模型,只讨论0h0,b10,b20,此时球状模型中的三个参数C0,C,a为2024/7/28136

48、n n(2)如b00,b20,此时b00,即C00,b10,b2=0,此时应分两种情况,一是b2=0,则线性模型变为y=b0+b1x1,为一元线性模型,不是球状模型,可按一元线性回归模型参数估计方法求解参数,另一是b20,这时对原始数据进行调整,增加或删除一些不重要的实际变异函数点的数据,反复多次调整,直到b20为止,然后代入下述公式中进行计算。2024/7/28138回归模型的检验回归模型的检验n n请回顾第二章的相关内容2024/7/28139实例实例100个样方土壤表层有机质的含量个样方土壤表层有机质的含量2024/7/28140四种变异函数理论模型拟合参数四种变异函数理论模型拟合参数线

49、性有基台值模型的残差最小,决定系数最大,其次是球状模型,基台值基本相同,但线性有基台值模型的变程最小,其次是高斯模型和球状模型。块金值是指数模型的最小,其次是球状模型和线性有基台值模型。对这5个参数,显然最重要的是考虑决定系数R2的大小,其次是考虑残差RSS的大小,然后再考虑变程和块金值的大小,根据这个原则,选择球状模型作为本实例的变异函数理论模型是比较合适的,这个理论模型除了具有较高的拟合精度外,对变程内的模拟可以得到满意的结果。2024/7/281412024/7/28142基于优化搜索算法的参数拟合基于优化搜索算法的参数拟合n n对于结构复杂的变异函数理论模型,特别是套合结构模型,参数复

50、杂,难以用一般的通用方法求解出模型中的参数。但一些智能优化算法,如遗传算法、模拟退火算法、蚁群算法能够使用统一的流程求解出接近最优的参数。n n我们以遗传算法为例,介绍该算法在求解套合结构模型时的流程。2024/7/28143基于遗传算法的变异函数理论模型参数估计基于遗传算法的变异函数理论模型参数估计n n1、多尺度套合模型的规范表达2024/7/28144基于遗传算法的变异函数理论模型参数估计基于遗传算法的变异函数理论模型参数估计n n从上式可以看出,需求解的参数为2n+1个(因为第一个模型总是纯块金模型)。而在实际计算时,可以令,这样方便从经验半方差图中识别ci取值区间。并有以下约束:20

51、24/7/28145基于遗传算法的变异函数理论模型参数估计基于遗传算法的变异函数理论模型参数估计n n编码策略及初始群体产生n n假设需要顾及m(mk5。x4,x5和x7的丛聚作用降低了x5对待估样点x0的影响。而x1不存在丛聚效应。因此,在克里格估计中,不会由于一些样点丛聚在一起而增大其权重系数,这也正是克里格法估计的优点。2024/7/28197丛聚效应降低克里格权重系数丛聚效应降低克里格权重系数2024/7/28198屏蔽效应屏蔽效应n n当块金值很小或不存在时,已知样点的克里格权当块金值很小或不存在时,已知样点的克里格权重系数的大小受屏蔽效应影响,如图,已知样点重系数的大小受屏蔽效应影

52、响,如图,已知样点x5x5虽然与样点虽然与样点x1x1到待估样点到待估样点x0x0的距离相等,但是的距离相等,但是x1x1的克里格权重系数的克里格权重系数k1k1确大于确大于x5x5的权重系数的权重系数k5k5,这主要是因为样点这主要是因为样点x5x5受受x4x4的屏蔽效应影响。的屏蔽效应影响。2024/7/28199屏蔽效应屏蔽效应n n如图,待估点如图,待估点x0x0附近有附近有x1,x2,x1,x2,x12x12,共,共1212个已知样个已知样点,由数据构形可知,点,由数据构形可知,x1,x2,x3,x4x1,x2,x3,x4与与x0x0的几何位置对的几何位置对称且相等,称且相等,x5,

53、x6x5,x6x12x12与与x0x0的的几何位置也对称且相等。内圈的几何位置也对称且相等。内圈的每个已知样点的克里格权重系数每个已知样点的克里格权重系数是是(1-k)/4(1-k)/4,外圈的克里格权重系,外圈的克里格权重系数是数是k/8k/8,总和为,总和为1 1,因此,内圈,因此,内圈的权重系数明显大于外圈样点的的权重系数明显大于外圈样点的权重系数,这是由于内圈样点屏权重系数,这是由于内圈样点屏蔽了外圈样点的缘故。蔽了外圈样点的缘故。2024/7/28200屏蔽效应屏蔽效应2024/7/28201屏蔽效应屏蔽效应n n屏蔽效应还与块金常数有很大关系,当块金常数增大时,屏蔽效应减弱,当为纯

54、块金效应时,所有样点之间相互独立,协方差函数为0,变异函数等于外延方差,即基台值,则待估样点x0与周围任何已知样点的克里格权重系数均相同,此时屏蔽效应消失,任何一点上的克里格线性无偏最优估计量都是所有样点的算术平均值。2024/7/28202理论模型对克里格估值的影响理论模型对克里格估值的影响n n数据由8个样点和1个待估点组成,结构分析后,采用球状模型作为理论模型样点位置、属性值及与待估点的距离2024/7/28203理论模型对克里格估值的影响理论模型对克里格估值的影响n n球状模型:2024/7/282041)尺度对克里格估值的影响)尺度对克里格估值的影响n n若令r2(h)=0.5r1(

55、h),球状模型尺度变化后,屏蔽效应减弱,方差较小,精度提高2024/7/28205(1)尺度对克里格估值的影响)尺度对克里格估值的影响r1(h)r2(h)2024/7/28206(2)变程对克里格估计的影响)变程对克里格估计的影响n n原球状模型变程为40,如果变为20,则新的球状模型为,则内圈样点的克里格权重系数增大,而外圈样点的克里格权重系数减小,增加了屏蔽效应,同时也增大了克里格估计方差,使估计的精度降低。2024/7/28207(2)变程对克里格估计的影响)变程对克里格估计的影响2024/7/28208(3)块金效应对克里格估值的影响)块金效应对克里格估值的影响n n由变异函数性质可知

56、,基台值相当样点之间自相关消失,相互独立时样本方差。对于一个已抽取的空间样本,其方差已确定,因此基台值=常数,当C0增加时,供高要降低,当C0增加到与样点独立时的方差时,C=0,此时基台值就是块金常数C0,因此,块金常数C0的增大,导致样点之间的相关性降低而独立性加大。2024/7/28209(3)块金效应对克里格估值的影响)块金效应对克里格估值的影响n n若把原来的球状模型块金值扩大一倍,即C0=0.34,基台值不变,则模型的曲线图:2024/7/28210(3)块金效应对克里格估值的影响)块金效应对克里格估值的影响n n块金值变大后,降低了内圈样点的权重系数,增大了外圈块金值变大后,降低了

57、内圈样点的权重系数,增大了外圈样点的权重系数,而克里格方差也增大了近一倍,这说明样点的权重系数,而克里格方差也增大了近一倍,这说明块金效应增大可使屏蔽效应降低,显然,当块金效应增大可使屏蔽效应降低,显然,当C0=0.52C0=0.52时,时,8 8个样点的克里格权重系数均为个样点的克里格权重系数均为0.1250.125,此时的块金效应相,此时的块金效应相当于纯块金效应。当于纯块金效应。块金值不变时块金值增大1倍2024/7/28211(4)理论模型的种类对克里格估计的影响)理论模型的种类对克里格估计的影响n n如果换成线性有基台值模型:两种模型变异函数曲线(左)和协方差函数曲线(右)对比202

58、4/7/28212与球状模型相比,线性有基台值模型的克里格估计结果汇总,内圈的权重系数减小,而外圈的权重系数增大,这与屏蔽效应一致2024/7/28213(5)领域内已知样本数量对克里格估计的影响)领域内已知样本数量对克里格估计的影响n n克里格估计量是根据待估点的领域内已知样点数据进行的,采用多少已知样点数据估计才合适,没有一个固定的标准。但从统计估计的角度看,估计方差随着采样的样本数越多,而越小。当样本扩大到一定数量后,估计方差基本保持在某一数值附近。因此,当估计方差开始保持平稳时的样本数就可以作为确定领域内已知样点数的指标,在这个范围内的样点数据称为有效样点数据。2024/7/28214

59、领域内312个已知样本数量的克里格估计过程2024/7/28215不同样本点所产生的估计值(左)及其方差(右)可以看出,当领域内有效样本点的数量由4个增加到8个时,克里格估计方差基本保持不变,因此,在地统计学克里格估计中,一般多数采用4-8个领域内的有效数据,再扩大有效数据,会产生屏蔽效应,而且对克里格估计精度不起作用。2024/7/28216简单克里格法简单克里格法n n如果我们知道区域随机变量的平均值,那么我们可以利用这种先验知识通过简单克里格法来提高预测的精度,这种克里格预测方法仍然是线性加和,但将随机过程的平均值包括了进去,这种随机过程必须是二阶平稳的,预测公式为:2024/7/282

60、17简单克里格法简单克里格法n n权重利用以下公式计算:n n用矩阵形式表示为:其中:n n则:预测方差为:2024/7/28218地学计算方法实验地学计算方法实验华中农业大学 杨勇2024/7/28219实验目的和内容实验目的和内容n n通过实验,掌握地统计学克里格方法空间插值的一般流程,熟悉使用空间数据编程方法。本实验具体包含以下内容n n(1)样品空间数据读取n n(2)数据预处理n n(3)经验半方差值的计算n n(4)经验半方差图的绘制n n(5)变异函数理论模型及其参数拟合n n(6)普通克里格插值算法实现2024/7/28220数据说明数据说明n n数据为data.xls文件,文

61、件中有5列,分别是(x,y,ph值,有机质含量,全氮含量),共658行。其中x,y是样品坐标值,其余为土壤中元素含量。n n同学们可以任选一种元素作为实验对象,也可以多选。2024/7/28221实验方法实验方法n n使用Matlab软件,编程实现实验内容n n分组进行,每组6人2024/7/28222实验步骤(关键)实验步骤(关键)n n(1)样品空间数据读取n n利用Matlab中xlsread函数读取数据文件,将数据存储一个二维数组,以待后续利用2024/7/28223数据预处理数据预处理n n包括异常值处理和正态分布检验,其中异常值处理使用四倍法或平均值加标准差法;正态分布检验通过观测

62、直方图或QQ图,如果明显不符合正态分布,要进行转换。2024/7/28224变异函数和协方差函数的计算方法变异函数和协方差函数的计算方法n n变异函数计算公式:2024/7/28225n n一般地,在实际计算时,假设步长为lag,当前滞后级别为n(n为正整数),则h=n*lag,应该这样处理:n n(1 1)研究区所有点,找到点对()研究区所有点,找到点对(P Pi i,P,Pj j),其符合条件:),其符合条件:(n-1)*lagdis (P(n-1)*lagdis (Pi i,P,Pj j)=n*lag)=n*lag,它们之间的距离记为,它们之间的距离记为DISDISi in n(2 2)

63、计算)计算z(pz(pi i)-z(p)-z(pj j) )2 2, ,记为记为S Si i. .n n(3 3)设找到)设找到N(h)N(h)个这样的点对,计算平均距离个这样的点对,计算平均距离n n(4 4)计算)计算 ,为,为n n滞后级别上的经验半方滞后级别上的经验半方差值。差值。n n(5 5)将各个级别的()将各个级别的(h havgavg,r*(hr*(havgavg) )),绘制在图上,形成),绘制在图上,形成经验半方差图经验半方差图2024/7/28226经验半方差图的绘制经验半方差图的绘制n n利用Matlab的绘图函数,将各滞后距级别的经验半方差值绘制在图上,如:2024

64、/7/28227变异函数理论模型及其参数拟合变异函数理论模型及其参数拟合n n通过观察经验半方差图和各理论模型的曲线形象,对比判断使用哪个理论模型,然后确定模型参数n n模型参数拟合可以使用最小二乘法公式n n也可以使用遗传算法拟合n n如果你都实现不了,就用人眼观察(但要需要使用第二章的检验方法多次调试)2024/7/28228普通克里格插值算法实现普通克里格插值算法实现n n插值时,首先要布置需插值的网格,建议规定一个格网大小(如100或200),然后对每个格网的中心点进行插值,插值结果作为格网本身的属性值。n n因此,需先计算出各个格网中心点的位置,然后对格网中心点利用普通克里格方法插值,并计算处其方法(参考第五章的ppt)2024/7/28229提交结果提交结果n n最终提交程序,并将计算插值结果转换成asc数据格式(该格式可在arcgis中打开)提交。Asc格式也可在记事本中打开,如2024/7/28230说明:asc文件包括文件头和文件正文两部分,文件头第一行表示列数,第二行表示行数,第三行表示区域内最小的x值,第四行表示区域内最小的y值,第五行表示格网大小,第六行表示当格网无值时的填充内容,文件正文存储各个格网的插值结果。2024/7/28231

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号