文档详情

地理数据及其采集与处理课件

枫**
实名认证
店铺
PPT
935KB
约74页
文档ID:586150767
地理数据及其采集与处理课件_第1页
1/74

第二章 地理数据及其采集与预处理 本章主要内容: Ø地理数据的类型Ø地理数据的基本特征Ø地理数据的采集与处理Ø地理数据的统计处理Ø地理数据分布的集中化与均衡度指数 第一节 地理数据的类型Ø空间数据:空间数据:用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系Ø属性数据:属性数据:用于描述地理实体、地理要素、地理现象、地理事件、地理过程的有关属性特征 两个概念:两个概念: 一、空间数据的表达ü点点——由一个独立的坐标点(x,y)定位,是空间上不可再分的几何实体ü线线——由若干个(至少两个,理论上是无穷个)坐标点(xi,yi)(i =1,2,…)定义,有一定的长度和走向,表示线状地物或点实体之间的联系 ü面面——表示在空间上连续分布的地理景观或区域ü点、线、面之间的拓扑关系拓扑关系 三种基本的地理几何实体及其组合点线面地域类型网络地带区域图图2.1.1 2.1.1 三种基本的地理几何实体及其组合三种基本的地理几何实体及其组合 二、属性数据的类型n 数量标志数据数量标志数据 ① 间隔尺度数据:以有量纲的数据形式表示测度对象在某种单位(量纲)下的绝对量。

② 比例尺度数据:以无量纲的数据形式表示测度对象的相对量 §品质标志数据品质标志数据 ① 有序数据:当测度标准不是连续的量,只是表示其顺序关系的数据 ② 二元数据:用0、1两个数据表示地理事物、地理现象或地理事件的是非判断问题 ③ 名义尺度数据:用数字表示地理实体、地理要素、地理现象或地理事件的状态类型 几种属性数据举例:年平均气温(°C) 年降水量(mm) 土地面积(ha) 人口(人) 国内生产总值(万元)区域1 8.0 500.2 245.6 1210 2678.28 区域2 7.6498.61064.10232015.47区域36.5550.9894.38481754.56区域38.5586.4668.76541365.46表表2.1.1 2.1.1 间隔尺度数据间隔尺度数据§间隔尺度数据 §比例尺度数据年 份19961997199819992000耕地复种指数120.40113.56126.54132.76121.43农业发展指数100115.68124.50135.69129.56表表2.1.2 2.1.2 某地区耕地复种指数和农业发展指数某地区耕地复种指数和农业发展指数 §有序尺度数据城市A城市B城市C城市D城市E城市F规模等级123443人口位次12465 3表表2.1.3 2.1.3 城市等规模等级与人口数量的排位次序城市等规模等级与人口数量的排位次序 § 二元数据城市A城市B城市C城市D城市E城市A—1101城市B1—110城市C11—10城市D011—1城市E1001—表表2.1.4 二元数二元数据据其中其中:1表示两城市之间通航表示两城市之间通航0表示两城市之间不通航表示两城市之间不通航 §名义尺度数据地块序列号12345 6土地利用类型1315211414 31表表2.1.5 土地利用类型土地利用类型 第二节 地理数据的基本特征 Ø数量化、形式化与逻辑化Ø不确定性 Ø多种时空尺度 Ø多维性 一、数量化、形式化与逻辑化Ø定量化的地理数据是建立地理数学模型的基础,其作用为:①确定模型的参数、给定模型运行的初值条件; ②检验模型的有效性。

Ø形式化、逻辑化与数量化,是所有地理数据的共同特征Ø地理计算学,对于地理数据的形式化、逻辑化提出了更高的要求,要求“整体”和“大容量”的地理数据具有统一的数据形式和交换标准 不确定性是地理数据的基本特征之一地理数据不确定性的来源:ü地理系统本身的复杂性从本质上决定着地理数据的不确定性ü各种原因所导致的数据误差二、不确定性 三、地理数据的多时空尺度:Ø从空间尺度上来看,描述地理区域的各种地理数据,具有多种空间尺度—既有全球尺度的、洲际尺度的、国家尺度的,也有流域尺度的、地区尺度的、城市尺度的、社区尺度的Ø从时间尺度上来看,描述地理过程的各种地理数据具有多种时间尺度,如历史年代、天、月、季度、年等 四、多维性 对于一个地理对象的具体意义要从空间、属性、时间三个方面综合描述 Ø空间方面,描述该地理对象所处的地理位置和空间范围,一般需要2~3个变量 ;Ø属性方面,描述该地理对象的具体内容,至少需要1个以上,多则需要十几个、甚至几十个变量 ; Ø时间方面,描述该地理对象产生、发展和存在的时间范围 ,需要1个变量;Ø地理数据的这种多维性,被人们描述为地理数据立方体(The Geographical Data Cube)。

地理数据立方体地理数据立方体1,2,…m区域 要素1,2,3,……,nt1t2…tk时间图图 2.2.1 2.2.1 地理数据立方体地理数据立方体 第三节 地理数据的采集与处理Ø地理数据的采集 Ø地理数据处理 一、地理数据的采集一、地理数据的采集 Ø地理数据的渠道来源 :(1)来自于观测、测量部门的有关专业数据 (2)来自于统计年鉴、统计公报中的有关自然资源及社会经济发展数据 (3)来自于有关单位或个人的不定期的典型调查数据、抽样调查数据 (4)来自于政府公报、政府文件中的有关数据 (5)来自于档案、图书等文献资料中的有关数据6)来自于互联网(Internet)的有关共享数据7)地图图件主要包括各种比例尺的地形图、影像地图、专题地图等8)遥感数据主要包括各种航空遥感数据和卫星遥感数据9)其它来源的有关数据 Ø采集地理数据的过程中需要注意的问题: (1)数据的完备性和可靠性 (2)在数据采集过程中,最大限度地减小数据的误差 (3)在数据采集完毕后,进行检验,进行比较、辨别真伪,通过数据筛选,去粗存精、去伪存真 二、地理数据处理 Ø地理数据处理,是所有地理问题研究的核心环节Ø从理论上讲,在地理学中,数学方法的运用主要有两个目的:(1)运用数学语言对地理问题的描述,建立地理数学模型,从更高、更深层次上揭示地理问题的机理;(2)运用有关数学方法,通过定量化的计算和分析,对地理数据进行处理,从而揭示有关地理现象的内在规律。

因此,从一定意义上来说,地理数据处理也是计量地理学的任务之一 Ø地理信息系统的核心功能是地理数据处理,它实现了空间数据与属性数据的完美结合数学方法确是其强有力支撑 Ø地理计算学(Geocomputation)的实质是借助于现代化的计算理论、计算方法和计算技术,通过对“整体”和“大容量”的地理数据进行处理,揭示复杂地理系统的运行机制,探索和寻求新的地理系统理论 Ø地理数据的采集、处理及其与数学方法、地理信息系统、地理计算学之间的相互关系图: 地理数据的数据源地理数据采集数学方法GISGeocomputation地理处理数据图图2.3.1 2.3.1 地理数据采集与处理地理数据采集与处理 第四节 地理数据的统计处理Ø统计整理Ø几种常用的统计指标与参数Ø变异系数的一个应用实例:中国经济发展水平的省际差异分析 一、统计整理 统计整理的基本步骤:(1)统计分组 所谓统计分组,就是根据研究目的,按照一定的分组标志将地理数据分成若干组2)计算各组数据的频数、频率,编制统计分组表3)作分布图 例:对于黄土高原西部地区某山区县的人工造林地调查数据,步骤如下:n以地块面积作为统计分组标志进行分组;n计算各组数据的频数、频率,编制成如下的统计分组表; 分组序号1234567891011分组标志 (0,1](1,2](2,3](3,4](4,5](5,6](6,7](7,8](8,9](9,10](10,11)组 中 值 0.51.52.53.54.55.56.57.58.59.510. 5频 数 25961362142532862602031548524频 率1.445.537.8312.3314.5716.4714.9811.698.874.901.38向上累计频 数25121257471724101012701473162717121736向下累计频 数 17361711161514791265101272646626310924表表2.4.1 2.4.1 某县人工造林地面积的统计分组数据某县人工造林地面积的统计分组数据 n做出频数分布的直方图 :图图2.4.1 2.4.1 频数分布柱状图频数分布柱状图 n将上图各组的频数分布从组中值位置用折线连接起来,得到频数分布的曲线图: 图图2.4.2 2.4.2 频数分布曲线图频数分布曲线图 二、几种常用的统计指标与参数Ø描述地理数据一般水平的指标Ø描述地理数据分布的离散程度的指标Ø描述地理数据分布特征的参数 (一)描述地理数据一般水平的指标(一)描述地理数据一般水平的指标n平均值 ,反映了地理数据一般水平。

计算方法: ① 未分组的地理数据 ② 分组的地理数据 (2.4.1)(2.4.2) n中位数 ① 对于未分组的地理数据,样本数n为奇数时,中位数是位置排在第(n+1)/2位的数据;样本数n为偶数时,中位数是排在中间位置的两个数据的平均值 ② 分组的地理数据,中位数的计算方法: 确定中位数所在的组位置,按下述公式计算中位数: 或(2.4.3)(2.4.4) 在式(2.4.3)和 (2.4.4)中,Me代表中位数;L为中位数所在组的下限值;U为中位数所在组的上限值;fm为中位数所在组的频数;Sm-1为中位数所在组以下的累计频数;Sm+1为中位数所在组以上的累计频数;d为中位数所在组的组距 §众数:众数就是出现频数最多的那个数,计算方法分为以下两种情况:① 未分组的地理数据,可以根据每一个数据出现的频数大小直接确定众数② 对于已经分组的地理数据,中位数的计算步骤如下: a.确定频数最多的组为众数所在组 b.按以下公式计算众数: 或(2.4.5)(2.4.6) 在式(2.4.5)和 (2.4.6)中,M0代表众数;L为众数所在组的下限值;U为众数所在组的上限值;∆1为众数组频数与下一组频数之差;∆2为众数组频数与上一组频数之差;d为众数所在组的组距。

例1:下表给出了某农场各农田地块的面积,试计算其平均值、中位数和众数 地块编号 123456789101112平均值中位数众数面积(ha) 12835035555072408529657554.2552.550应按照未分组数据计算其平均值、中位数和众数,计算结果见上表最后三列 表表2.4.2 2.4.2 某农场各农田地块的面积某农场各农田地块的面积 ( (单位:单位:ha) ) 例例2:下表给出了中国西部地区某城市2000年家庭月收入的抽样调查结果,试计算其平均值、中位数和众数家庭月收入分组(元)户数向上累计频数向下累计频数2000~3000300300 21303000~40001300160018304000~500020018005305000~600015019503306000~700010020501807000~8000502100808000~900030213030合 计2130——表表2.4.3 2.4.3 中国西部地区某城市中国西部地区某城市20002000年家庭月收入的年家庭月收入的抽样调查结果抽样调查结果 (单位:元)(单位:元) 解题步骤:§用公式(2.4.2)计算平均数: §计算中位数。

先确定中位数所在组的位置,再按照公式(2.4.3)或者(2.4.4)计算中位数 Me =3588.46(元)=3899.06(元) §计算众数先确定众数所在组,再按照公式(2.4.5)或(2.4.6)计算众数 显然,众数所在组应该在第二组 众数M0 =3476.19 (元) (二)描述地理数据分布的离散程度的指标(二)描述地理数据分布的离散程度的指标n极差,指所有数据中最大值与最小值之差:n离差,指每一个地理数据与平均值的差,计算公式为:§离差平方和它从总体上衡量一组地理数据与平均值的离散程度,其计算公式为: (2.4.9) (2.4.8) (2.4.7) n方差与标准差,从平均概况衡量一组地理数据与平均值的离散程度方差计算公式为: 标准差为方差的平方根,计算公式为:(2.4.10)( 2.4.11) 如果以样本方差对标准差进行无偏估计,则计算公式为:(2.4.12) §变异系数,表示了地理数据的相对变化(波动)程度,其计算公式:((2.4.132.4.13)) 例如:对于下表中的数据,分别计算极差、离差、离差平方和、方差、标准差、标准差的无偏估计,以及变异系数。

地块编号 123456789101112平均值平均值中位中位数数众众数数面积(ha) 12835035555072408529657554.2552.550表表2.4.2 2.4.2 某农场各农田地块的面积某农场各农田地块的面积 ( (单位:单位:ha)ha) 步骤 :n按照公式(2.4.7)计算极差:n按照公式(2.4.8)计算离差,结果见下表 序号123456789101112面积128350355550724085296575离差-42.25 28.75-4.25 -19.25 0.75 -4.25 17.75-14.25 30.75-25.25 10.7520.75 表表2.4.4 2.4.4 地理数据的离差地理数据的离差 §按照公式(2.4.9)计算离差平方和: §按照公式(2.4.10)计算方差: §按照公式(2.4.11)计算标准差: §按照公式(2.4.12)计算标准差的无偏估计: §按照公式(2.4.13)计算变异系数: (三)描述地理数据分布特征的参数(三)描述地理数据分布特征的参数 n偏度系数,测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况,计算公式为: g1<0,表示负偏,即均值在峰值的左边;g1>0,表示正偏,即均值在峰值的右边;g1=0,表示对称分布(如下图)。

(2.4.14) 图图2.4.3 2.4.3 偏度系数的三种情形偏度系数的三种情形 §峰度系数它测度了地理数据在均值附近的集中程度,其计算公式为 标准正态分布的峰度系数 g2 =0;g2>0,表示地理数据分布的集中程度高于正态分布;g2<0,表示地理数据分布的集中程度低于正态分布(见下图) g2>0g2 =0g2<0图2.4.4 标准峰度系数的三种情形(2.4.15) 三、应用实例:中国大陆省份人均GDP的变异系数 我们知道变异系数测度的是地理数据分布的相对差异 为了分析中国大陆经济发展的省际差异及其演化过程,我们首先把1978-2002年各省(直辖市、自治区)的GDP数,按照可比价格进行折算,再除以人口数,计算出按照可比价衡量的人均GDP数据,然后再用公式(2.4.13)式计算变异系数,结果如下图 图图2.4.5 1978—20022.4.5 1978—2002年中国大陆省份人均年中国大陆省份人均GDPGDP的变异系数的变异系数 Ø从图中可以看出,在1978-2002年期间,人均GDP的变异系数,以1990年为转折点,呈现出一个U形曲线即:人均GDP的变异系数,在1978-1990年期间基本上呈现下降趋势,而在1990-2002年期间则基本上呈现上升趋势。

这说明,在1978 - 1990年期间,中国大陆经济发展的省际差异,基本上呈缩小趋势,而1990 - 2001年期间则基本上呈扩大趋势这一变化与国家宏观经济政策变动的时间、趋势大体一致 第五节 地理数据分布的集中化与均衡度指数 Ø罗伦次曲线与集中化指数 Ø基尼系数 Ø锡尔系数 ((一)一)罗伦次曲线罗伦次曲线n20世纪初,意大利统计学家罗伦次(M. Lorenz),首先使用累计频率曲线研究工业化的集中化程度后来,这种曲线就被称之为罗伦次曲线 一、罗伦次曲线与集中化指数 绘制罗伦次曲线绘制罗伦次曲线实例实例:: (1)将表2.5.1各产业部门的收入及其占总收入比重(百分比),从大到小重新排序;(2)从大到小,逐次计算累计百分比;(3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线(图2.5.1和图2.5.2),即罗伦次曲线 表2.5.1 某地区农户家庭经营性纯收入水平及其构成 图图2.5.1 19992.5.1 1999年农户家庭经年农户家庭经营性纯收入构成的罗伦次曲线营性纯收入构成的罗伦次曲线图图2.5.2 20042.5.2 2004年农户家庭经年农户家庭经营性纯收入构成的罗伦次曲线营性纯收入构成的罗伦次曲线 结果分析:Ø罗伦次曲线的上凸程度,表示农户家庭经营性纯收入的部门集中化程度。

上凸程度越大,就表示农户家庭经营性纯收入越是集中于某些产业部门Ø如果各个产业部门的收入是均等的,则罗伦次曲线正好就变成了正方形的对角线Ø比较图2.5.1和图2.5.2,可以看出该地区1999年农户家庭经营性纯收入的部门集中化程度高于2004年 ((二)集中化指数二)集中化指数Ø集中化指数,是一个描述地理数据分布的集中化程度的指数 n假若罗伦次曲线的解析式为:n显然,该曲线下方区域的面积为:n当数据均匀分布时,A就变成了对角线以下三角形的面积(R);当数据集中于一点时,A就变成了整个正方形的面积(M)2.5.3) n显然,I越大,就说明数据分布的集中化程度越高;反之,I越小,就说明数据分布的集中化程度越低(越均衡)n常采用如下近似取值方法:nA——实际数据的累计百分比总和nR——均匀分布时的累计百分比总和nM——集中分布时的累计百分比总和 n集中化指数在[0,1]区间上取值n只有数据的个数相同而且横坐标划分一致时,才有可比性 二、基尼系数 Ø基尼系数(Gini coefficient),就是通过两组数据的对比分析,纵、横坐标均以累计百分比表示,从而做出罗伦次曲线,然后再计算得出的集中化指数。

它是通过对人口和收入两组数据进行比较分析,然后将纵、横坐标均以累计百分比表示,作出罗伦次曲线,再计算集中化指数而得到的一个判断收入分配不平等程度的指标 其原理方法如下:ü列出每一个区域(部门)的人口与收入占全区(各部门总计)的比重p与w;ü计算每一区域(部门)的比率w/p;ü根据w/p值,由小到大将每一地区(部门)排序;ü按照上述顺序分别计算p和w的累计值X和Y;ü以X为横坐标,以Y为纵坐标,在直角坐标系中依次连接各点,得到一条下凸的罗伦次曲线 Ø基尼系数(G)就可以按照如下公式计算: n假若罗伦次曲线的解析式为:n显然,该曲线下方区域的面积为:n对应于绝对均衡分布,其罗伦次曲线就是正方形的对角线,其下方区域的面积为R=1/22.5.6) Ø根据中国大陆1978-2002年各省(直辖市、自治区)的人口数和按照可比价格折算的GDP数据,计算基尼系数,结果如下图可以看出,在1978-1990年期间,基尼系数虽然出现过几次上升和下降的微小波动,但基本趋势是缓慢地下降的;而在1991-2002年期间,基本上呈现上升趋势这一结论,与上节计算的加权变异系数是相互印证的 图图2.5.4 1978—20022.5.4 1978—2002年中国大陆省际收入差异的基尼系数年中国大陆省际收入差异的基尼系数 三、锡尔系数 Ø基尼系数(Gini coefficient),用于对经济发展、收入分配等均衡(不均衡)状况,进行定量化的描述。

Ø锡尔系数又称锡尔熵,有两个锡尔系数指标,即锡尔系数T 和锡尔系数LØ两者的不同之处在于锡尔系数T 以收入比重加权计算,而锡尔系数L则以人口比重加权计算 Ø如果以人口比重加权,锡尔系数 L 的计算公式为: 式中:n为区域(部门)个数; 为地区(部门)收入占全区(各部门总计)的份额; 为i地区(部门)的人口占全区(各部门总计)的份额 (2.5.9) Ø如果以收入比重加权,则锡尔系数 T 的计算公式为:n锡尔系数越大,就表示收入分配差异越大;反之,锡尔系数越小,就表示收入分配越均衡 (2.5.10) Ø根据各省(直辖市、自治区)的人口和按照可比价格折算的GDP数据,计算1978—2002年中国大陆省际差异的锡尔系数T 值,结果如下图所示可以看出,在1978—1990年期间,锡尔系数虽然有微小波动,但基本上呈下降趋势;而在1991—2002年期间,基本上呈显出上升趋势这一结论,与前面计算出的基尼系数也是相互印证的 图图2.5.5 19782.5.5 1978--20022002年中国大陆省际收入差异的锡尔系数年中国大陆省际收入差异的锡尔系数 作业: 对于下表中的数据,分别计算平均值、中位数、众数、极差、离差、离差平方和、方差、标准差、标准差的无偏估计,以及变异系数。

上交的作业包括:程序+结果) 。

下载提示
相似文档
正为您匹配相似的精品文档
相关文档