三维地理信息系统中信息量测度方法研究摘要:通过对地理信息自身的特殊性、信息量悖论的讨论,较为详细地分析了Shannon信息公式的局限性,并指出了Shannon公式的适用方式在此基础上,将三维地理信息系统总的信息量分解为DEM信息量、三维地物信息量、二维注记信息量进行了分别计算并得出系统总的信息量关键词:三维地理信息系统;信息量; DEM信息量; 三维地物信息量;二维注记信息量王豪(1987-)男,硕士生,地图学与地理信息工程专业,专业方向为三维地理信息系统0、引言地理信息技术发展到今天,三维表达日益成为一个显著的趋势和潮流为了使地理信息能够更合理更科学地传递给使用者,与二维平面地图进行制图综合以适应不同的空间尺度相类似,三维地理信息在表达也需要根据不同的尺度将信息量控制在一个合理的水平其中三维地理信息的信息量计算,是非常关键的技术对信息量的计算通常采用Shannon根据概率统计的方法提出的信息熵公式随着信息论在地图学领域的逐渐深入,越来越多的学者对其局限性有了更为深刻的认识,也提出了一些改进的方法本文分析Shannon公式的局限性与合理性,将三维地理信息系统的信息量构成进行分解,并对各部分的信息量进行探索性研究。
1、Shannon信息熵公式及其局限性Shannon 从热力学定律出发,使用数学语言阐述了概率与信息冗余的关系[1] Shannon认为,任何信息都存在冗余,冗余量的大小与信息中每个符号出现的概率或者不确定性有关Shannon将信息中排除了冗余之后的平均信息量称为“信息熵”,并给出信息熵的计算公式如下. 对于任一事件集,有 (1)对应地,每个随机事件发生的概率为: (2)采用对数作为不确定性的描述,进而可知信息熵公式为: (3)如果将这个公式简单地移植到地图学领域,只需要对公式(3)中的变量作出新的解释例如,在衡量地图符号包含的信息量时,可以认为是某个地图符号发生或者不发生的随机事件,而则是该地图符号在整个地图图幅中发生的概率[2] 1.1、地理信息的特殊性Shannon信息熵公式应用于地图信息量测以来,其局限性受到不少学者的质疑这主要是地理信息有别于单纯的电磁信号信息,有其自身的特殊性:(1)概率统计的方法计认为各种符号的出现是不确定的,但是地图一旦作为描述客观存在的一种产品,其表现形式和表现内容有着严格的规定性,各种符号也不是以一定的概率出现在地图上正如苏联地图学家萨里谢夫所言:“要知道,地球的每一要素,甚至区域的每一要素都是客观存在的,而不是以某个概率发生的”[3] 。
2)地理信息有主次之分,有级别之异,很明显,级别越高、标志越重要的符号,所携带的信息量越大,但是概率统计的方法无法表达这些特征 [4] 3)地理信息区别于其他信息的方式还在于地理信息(如地图信息)是二维的、三维的乃至多维的对于其他信息(如课文、、广播)来说,很难接受跳跃式的获取信息,但是对于地图来说,跳跃式往往是可以接受的、甚至是非常必要的地理信息的这些特殊性,决定了简单地采用Shannon信息熵公式来衡量地理信息的多少,不仅很难达到目的,而且可能会忽视非常重要的信息1.2、信息量悖论及信息的结构层次彩票中大奖,则信息量大,不中奖,则信息量小但是如果要到邮局传递中奖或不中奖的信息,则收费是相同的,即中奖信息被认为是相同的信息量由此产生“信息量悖论”按照屠德雍的解释[5],信息像物质一样是有结构的彩票中奖是由词组来表达的,可以看做是信息分子层面的表达;而词组是由单个语词构成的,这个可以看做是原子层面的表达;如果将单个语词再加以划分,就进入了量子层面之所以会出现“信息量悖论”,是因为我们将分子层面的信息与原子层面的信息简单地划上了等号从信息量悖论的角度来看地图这个特殊的信息载体,就不难发现,我们关注的是“分子层面”的地图信息量,而采用Shannon公式却是对各种地图符号这些“原子层面”的要素进行的计算。
这个悖论的解释说明,Shannon公式不是完全不可以使用,这是要将这个使用限制在某一个统一的层面本文主要从分子层面计算三维地理信息系统的信息量,对Shannon公式进行了改进2、三维地理信息系统中信息量的测度方法研究当前的三维地理信息一般由地形数据信息、地物模型信息、属性数据信息三部分构成部分有空间分析功能的三维地理信息系统还包含拓扑关系数据,本文只讨论三维地理信息系统中最基本的信息量,因此对其不加以讨论2.1、DEM地形信息量的测度方法地形数据的组织有多种方式,即DEM的数据组织方式,包括Grid(规则格网)方式、TIN(不规则三角网)方式和二者混合的方式尽管TIN在充分地表达地貌信息方面有很大的优势,但是存储、处理起来又诸多不便,因此一般的三维地理信息系统多采用Grid方式组织地理空间数据本文只讨论Grid方式所传达的信息量栅格形式的DEM单纯的高程记录,并不是其信息本质,而高程之间的差异造成的坡度、坡向才是地理信息的本质内容因此对DEM信息量的测度,应该从坡度和坡向着手[6] 地面某点的坡度(Slope)是过地面该点的平面与水平面的夹角,坡向(Direction)是该点切平面的法线在水平面的投影与过该点的正北方向的夹角,如图1所示。
图1. 坡度坡向示意图设某点在方向的高程变化率为,在方向的高程变化率为,则对于一个3*3的栅格数据,则:图2. 一个3*3的栅格数据 (4) (5)该点坡度与坡向分别为: (6) (7)现在定义一个地形复杂度指数(Slope Complexity Parameter): (8)其中是坡度变化率(Slope of Slope),是坡向变化率(Slope of Aspecet),且:的计算方法与之类似应用Shannon信息熵公式可求出地形信息量:(10)其中是DEM总的点数2.2、三维地物模型信息量的测度方法地物模型通常架构在可视化之后的DEM之上其表达方式有两种:三维人工模型和三维实景模型三维实景模型数据量很大而且难以管理,因此很难在实际中充分应用本文讨论三维人工模型考虑到三维人工模型的级别,应该在使用Shannon公式之前对模型进行赋值[7] ,又由于人工模型的级别主要体现在尺度、色彩、位置等视觉变量上,所以各个模型的权值应该由该模型的变量特征所决定,即: (11)其中是对三维模型各个视觉变量的综合考查考虑到点、线、面、体等三维模型的复杂度不同 ,其权值分别可用下面的公式求出: (12) (13) (14)(15)公式(12)求点状模型的信息权值,其中是对应于的初始赋权,为比例常数。
其余公式以此类推此时,三维模型信息量为:(16)其中(17)其余各个模型的信息量以此类推2.3、二维注记信息量的测度方法在可以预见的相当长一段时间内,三维地理信息系统属性信息即注记信息仍然采用二维注记的传统表达方式[8]二维注记信息量采用下面的公式计算[9] : (18)式中:——这种注记的平均字数;——第个字在所有这种注记中出现的频率;——注记条数;——这种注记出现的次数假设相互独立,则其信息量为 (19)2.4、三维地理信息系统中的信息总量在三维地理信息系统中,DEM地形信息、三维地物信息和注记信息可以放置在不同的图层,使用者根据个人需要选择是否显示,因此这三者应视为相互独立,故三位地理信息系统中的总信息量为: (20) 其中为各个信息量的权重3、方法分析与评价一个合理的三维地理信息系统,在信息显示和传输的过程中,信息量既不能过少,也不能过多对三维地理信息系统中信息量的计算,有助于确定合理的显示方式,但是目前使用的Shannon公式有其自身的局限性本文认为Shannon信息熵公式的使用首先应该区分信息的结构层次,然后在和里的信息层面上加以计算从信息表达的分子层面看,三维地理信息系统的信息量可以划分为DEM信息量、三维模型信息量和二维注记信息量。
本文给出了各自的计算公式,为三维地理信息系统的信息测度提供了一个思路文章提出的对地理信息量的计算应该区分不同的信息层次,较好地解决了Shannon公式应用的局限性问题,使信息量的计算有了合理的理论基础文章给出的信息量计算公式,对三维地理信息量的计算做了初步的研究,但是其中的权值还需要进一步研究,这是今后工作的一个重要方向。