第二章地理数据及其采集与预处理

上传人:今*** 文档编号:107208299 上传时间:2019-10-18 格式:PPT 页数:52 大小:1.11MB
返回 下载 相关 举报
第二章地理数据及其采集与预处理_第1页
第1页 / 共52页
第二章地理数据及其采集与预处理_第2页
第2页 / 共52页
第二章地理数据及其采集与预处理_第3页
第3页 / 共52页
第二章地理数据及其采集与预处理_第4页
第4页 / 共52页
第二章地理数据及其采集与预处理_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《第二章地理数据及其采集与预处理》由会员分享,可在线阅读,更多相关《第二章地理数据及其采集与预处理(52页珍藏版)》请在金锄头文库上搜索。

1、1,第2章 地理数据及其采集与预处理,定义 地理数据:就是用一定的测度方式描述和衡量地理对象的有关量化标志。,2,第1节 地理数据的类型 第2节 地理数据的基本特征及其转换 第3节 地理数据的采集与处理 第4节 地理数据的统计处理 第5节 地理数据分布的集中化与均 衡度指数,3,第1节 地理数据的类型,空间数据(spatial data) 属性数据(attribute data),4,1.空间数据的定义 是指主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。坐标,是描述空间数据的基本手段,一般用经纬度坐标或公里网来表示。,5,6,2.空

2、间数据的表达 一般,空间数据表达可以归纳为点、线、面三种几何实体以及描述它们之间空间联系的拓扑关系。 (1)点:由一个独立的坐标点(x,y)定位,是空间上不可再分的几何实体。它可以表示精确的地理位置点,也可以是一些地理实体的抽象, 例如,道路的交叉点、河流的交汇点、小比例尺地图上的城市,村镇,7,(2)线:由若干个(至少两个,理论上是无穷个)坐标点(xi,yi)(i =1,2,)定义,有一定的长度和走向,表示线状地物或点实体之间的联系。 例如,交通线、河流及各种地理区域的界线等 (3)面:它表示在空间上连续分布的地理景观或区域。 例如,土壤或植被的分布区、居住区、行政区等 (4)点、线、面之间

3、的拓扑关系。,8,网络(由点和线组合形成)、地域类型(由点和面组合形成)地带(点、线和面组合形成),区域,9,2 属性数据 (1)属性数据的定义 是指主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程的属性特征的数据。 (2)属性数据的分类 数量标志数据:描述地理对象数量属性特征的数据。 间隔尺度(interval scale)数据 间隔尺度数据,是以有量纲的数据形式表示测度对象在某种单位(量纲)下的绝对量。 例如,以毫米为量纲表示某地的降水量,以某种货币量纲表示某地区的GDP等,10,9500年山东省各地区的GDP (单位:人民币),11,比例尺度(ratio scale)数据。

4、比例尺度数据,是以无量纲的数据形式表示测度对象的相对量。 这种数据要求事先规定一个基点,然后将其他同类数据与基点数据相比较,换算为基点数据的比例。因此,这类数据常又被称为指数或比例数。 例如,耕地复种指数,工业发展指数、农用发展指数、GDP发展指数等,注:耕地复种指数是指播种面积与耕地总面积之比 规定1996年农业产值为基数100,12,品质标志数据:描述地理对象品质属性特征的数据。 有序(ordinal)数据。 有序数据,是指测度标准不连续,只表示其顺序关系的数据,又称等级尺度数据。 这种数据并不表示量的多少,而只是给出一个等级或次序。 例如,1,2,3等分别表示某地区GDP的排位次序等,1

5、3,2004年山东省各地区的旅游收入位次排名,14,二元数据 二元数据,即表示地理事物、地理现象或地理事件的是非判断问题的数据。比如,0、1。 例如,在人口统计中,用1表示“男性”,用0表示“女性”;在一个交通网络中,两两组合考虑结点之间有无联线情况,1表示“两结点间存在联线”,0表示“两结点不存在联线”等 名义尺度(nominal scale)数据 名义尺度数据,即用于表示地理实体、地理要素、地理现象或地理事件的状态类型的数据。 例如,在土地利用现状调查中,用15表示“菜地”,13表示“水浇地”,14表示“旱地”,21表示“果园”,31表示“林地”等。,15,一 基本特征 1.数量化、形式化

6、与逻辑化 2.不确定性:(1)地理系统的复杂性 (2)数据误差 3.多种时空尺度 (1)空间尺度地理区域 (2)时间尺度地理过程 4.多维性:空间、属性、时间,第2节 地理数据的基本特征及其转换,16,二 地理数据的变换 (一)定性数据转换成定量数据 1.有序数据转换 测度标准不是用连续的量,而是表示其次序或等级关系的数据,可以转换成定量数据 2.二元数据转换 即0、1转换,,17,(二)数据本身转换 1.概念 将原始数据的每个数值通过某种特定的运算把它们变成一个新值,而且数据数值的变化不依赖于数据集合中其它数据的变化。 2.数据转换的方法,目的: 去伪存真、易识规律、消除量纲,缩小数据之间的

7、差距(减少变幅)、便于建模等。,18,我国工农业总产值表,(单位:亿元),19,(三)地理数据的标准化 1.概念 数据的标准化是指为了减少原始数据的变幅及消除其量纲的影响而对原始数据进行处理的方法。 2.与地理数据变换的区别 地理数据变换的过程中与矩阵中的其它数值没有发生联系。而地理数据标准化处理则发生联系。,20,3.数据标准化的主要方法 (1)极差标准化:又称“极差正规化”是指系列中的任一变量xij与其列中的最小值xj(min)之差和第j列中的最大值xj(max)与最小值xj(min)之差的比值。,21,(2)标准差标准化:是指系列中的任一变量xij与其列中的均值xj之差,再除以其标准差(

8、sj)。,22,(3) 极大值标准化:是指系列中的任一变量xij与其列中的最大值xj(max)之比。,23,(4)极小值标准化:是指系列中的任一变量xij与其列中的最小值xj(min)之比。,24,第3节 地理数据的采集与处理,地理数据的采集 地理数据处理,25,一 地理数据的采集,1.来自观测、测量部门的有关专业数据。 例如:水文观测站、气象观测站、环境监测部门 2.来自统计年鉴、统计公报中的有关自然资源及社会经济发展数据。 3.来自有关单位或个人的不定期的典型调查数据、抽样调查数据。,(一)地理数据的渠道来源,26,4.来自政府公报、政府文件中的有关数据。 5.来自档案、图书等文献资料中的

9、有关数据。 6.来自互联网(Internet)的有关共享数据。 7.地图图件。地形图、影像地图、专题地图 8.遥感数据。各种航空遥感数据和卫星遥感数据,27,相关数据网站:,28,(二)采集地理数据过程中需要注意的问题,1.数据的完备性和可靠性。 2.在数据采集过程中,最大限度地减小数据的误差。 3.在数据采集完毕后,进行检验,辨别真伪,通过数据筛选,去粗取精、去伪存真。,29,二 地理数据处理,地理数据处理,是所有地理问题研究的核心环节。 从理论上讲,在地理学中,数学方法的运用主要有两个目的: 1、运用数学语言对地理问题的描述,建立地理数学模型,从更高、更深层次上揭示地理问题的机理; 2、运

10、用有关数学方法,通过定量化的计算和分析,对地理数据进行处理,从而揭示有关地理现象的内在规律。 因此,从一定意义上来说,地理数据处理也是计量地理学的任务之一。,30,地理信息系统的核心功能是地理数据处理,它实现了空间数据与属性数据的完美结合。数学方法确实是其强有力的支撑。 地理计算学(Geocomputation)的实质是借助于现代化的计算理论、计算方法和计算技术,通过对“整体”和“大容量”的地理数据进行处理,揭示复杂地理系统的运行机制,探索和寻求新的地理系统理论。,31,统计分组是将预处理过的数据按照某种特征或标准分成不同的组别。 统计分组标志:分组时所依据的特征或标准,有品质标志和数量标志。

11、 频数分布表:对分组后的数据,计算各组中数据出现的次数或频数所形成的汇总表。,预处理数据,统计分组,作分布图,第4节 地理数据的统计处理,计算频数、频率, 编制统计分组表,32, 频数分布或次数分布(Frequency distribution):全部数据按其分组标志在各组内的分布状况。 分布在各组内的数据个数称为频数或次数。 相对频数(Relative frequency)/频率/比重:各组频数与全部频数之和的比重。,概念:频数/次数分布;相对频数,33,(一)品质数据的分组与频数分布,例 :50个计算机购买者所购买的不同品牌的机型数据,34,Table, Frequency Distrib

12、ution/Relative and Percentage Frequency of Computer Purchases Company Frequency Relative Frequency Percentage Frequency Apple 13 0.26 26 Compaq 12 0.24 24 Gateway2000 5 0.10 10 IBM 9 0.18 18 Packard Bell 11 0.22 22 Total 50 1.00 100,分组与求频数 :,35,分组计频基本步骤: 确定组数 计算组距确定组限 (按组)整理成分布频数表 例:一会计事务所对其20家客户(cl

13、ients)年底帐目辑核(audits)时间(天)统计如下表:,(二)数值数据的分组与频数分布,可先将数据进行排序,然后根据需要分组; 对较少的数据也可不排序直接根据需要分组。,Table Year-End Audit Times(in days) 12 14 19 18 15 15 18 17 20 27 22 23 22 21 33 28 14 18 16 13,36,第一步,确定组数(Number of classes)。组数的确定一般视数据本身的特点及数据的多少而定。,经验上以520之间为好,尤其注意不要确定太多的组数,使得每组包含的数据太少。 实际分组时常按斯特格斯(Sturges)

14、提出的经验公式来确定组数K:,其中N为数据的个数(总体单位数或样本数),一般对结果取整数。,上例中:K=1+lg20/lg2=1+4.32=5.325,37,或查下表:,38,第二步,确定组距:组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定: 组距=(最大值 - 最小值)/组数,上例中,组距=(33-12)/5=4.2,可取整数5为最后选定的组距。 第三步,确定各组组限并据此计算组中值、整理频数分布表。,第一组下限:数据最小值1/2的组距 第一组上限:下限组距 其他组依此类推。,组中值(下限上限)/2,39,频数分布表如下: Audit Frequency Relative Percent Time(days) Frequency Frequency 1015 4 0.20 20 1520 8 0.40 40 2025 5 0.25 25 2530 2 0.10 10 3035 1 0.05 5 Total 20 1.00 100,40,1、分组所遵循的主要原则是“不重不漏” 。因此, 最低组限 数据的最小值, 最大组限数据的最大值; 另外,数据在每组中的归属习惯上采用“上组限不在内”。,注意:,2、对离散型数据,可采用相邻两组组限间断的办法解决

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号