空间数据挖掘和知识发现

资源描述

《空间数据挖掘和知识发现》由会员分享，可在线阅读，更多相关《空间数据挖掘和知识发现（262页珍藏版）》请在金锄头文库上搜索。

1、分类号 P208 密级 U D C 编号 10486 武汉大学博士学位论文基于数据场与云模型的空间数据挖掘和知识发现研究生姓名：王树良指导老师：李德仁院士李德毅院士王新洲教授史文中教授学科专业：摄影测量与遥感研究方向：空间数据挖掘和知识发现二零零二年二月 2 Data Field and Cloud Model Based Spatial Data Mining and Knowledge Discovery By WANG Shu- Liang I 摘要空间数据获取设备的发展，使复杂多变的空间数

2、据日益膨胀，远远超出了人的解译能力，这促成了空间数据挖掘和知识发现的出现。总结分析空间数据挖掘和知识发现的含义、内容、理论及其研究进展，可以发现，数据是空间数据挖掘和知识发现的中心，不确定性是空间数据无法回避的事实存在。离开数据，空间数据挖掘和知识发现将成为无源之水。同时，正确使用不确定性，在基于空间数据挖掘和知识发现的决策支持中具有避免利用错误信息导致决策失误和度量信息支持度的作用。所以，在研究空间数据挖掘和知识发现时，有必要以数据为中心，充分顾及空间数据不确定性，使用顾及不确定性的理论技术。数据场紧紧围绕数据发现知识，云模型兼顾了随机性和模糊性，二者都是较为理想的理论技术。

3、本文主要以数据为中心并兼顾空间数据不确定性，提出数据场，发展云模型。给出了数据辐射、数据场、 “数据场云”聚类、模糊综合聚类、辐射亮度函数、辐射单元、云的辐射数字特征、云的辐射期望函数、云的辐射拟合算法、函数云模型等理论技术，以及基于云模型的 DHP（Delphi Hierarchy Process）法和矢量匹配法两种空间数据清理算法、空间数据挖掘的机理和视角，并使用长江三峡宝塔滑坡监测数据的挖掘、土地评价数据挖掘和二维数据集聚类挖掘三个实例对此予以检验。首先，概述空间数据挖掘和知识发现的产生、发展、内涵、外延、可发现的知识，构建空间数据挖掘和知识发现金字塔，总结可用的理论和方

4、法及其进展，研究空间数据不确定性与其不可分割性，确定全文的研究内容和结构。空间数据挖掘和知识发现与数字、空间的数值、数据、概念、信息、知识、粒度和尺度密切相关，与数据挖掘、机器学习、人工智能、模式识别、推理方法、地学数据分析、空间数据仓库、数字地球等相关学科既有区别又有联系。基于经典的确定集合理论，概率论、空间统计学、概率矢量、证据理论研究含随机性的空间数据挖掘，规则归纳、聚类分析和空间分析是空间统计学的延伸。扩展集合论方法包括模糊集、粗集、地学粗空间和云模型。仿生物的方法包括神经网络和遗传算法。可视化能够把大量空间抽象数据转换为人的视觉可以直接感受的计算机图形图像。决策树则以

5、树型结构产生规则和发现规律。空间在线数据挖掘建立是基于网络的验证型空间数据挖掘和分析工具，直接数据源一般是空间数据仓库。发现状态空间提供了实施多种空间数据挖掘理论与方法的运作空间。评价空间数据挖掘算法和系统的基本标准是，能否满足用户的特定需求。其次，以数据为中心，基于空间数据辐射建立数据场，研究它的概念、场强函数、势、可视化方法、影响因素等。空间数据挖掘面对的首先是空间观测数据，然后才形成概念；先有连续的数据量，然后才有离散的符号量。同时，观测只是对母体的抽样，这些空间观测数据也不是现实空间数据的分布母体的全部，而是母体的不完备样本。有限非完备样本的数据能量，通过数据辐射扩展

6、到母体空间，接受数II 据能量并被数据辐射所覆盖的空间为数据场。数据场的存在，要求满足独立性、就近性、遍历性、叠加性、衰减性和各向同性等性质条件。数据发射其能量的形式和特性的不同，导致数据场场强函数的差异。在空间数据挖掘和知识发现中，不同的人、在不同的知识背景环境中、站在不同的角度观看和研究数据，以数据辐射的观点来看，实质就是选取数据场的具体描述形式及其场强函数。数据场的场强函数有衍生场强函数和空间数据场强函数两种。计算场强函数的母体空间是基于笛卡儿网格划分的。数据场等势线(面)自然嵌套，整体上以不同的势心为中心呈现出自然的抱团特性，形成自然的拓扑聚类知识和类谱图。数据场的影

7、响因素主要包括数据辐射半径、数据辐射因子、数据辐射亮度、势间距和笛卡尔网格点密度等。再次，认为空间数据不确定性是空间数据挖掘不可避免的。它主要由随机性、模糊性、不完备性、混沌性和未确知性等多种要素综合引起，并受粒度、尺度、抽样等因素的综合影响。位置不确定性与属性不确定性是空间数据不确定性的基本内容，抑制空间数据不确定性主要有数据采集和认知两种技术方向，空间数据不确定性的减少与数据的增加并不等价。在研究空间数据不确定性时，概率论和数理统计具有 “硬计算” 的不足，模糊集的隶属函数固有不彻底性，粗集含有局限性， GIS 数据模型存在缺陷，灵敏度分析本身也有困难。最好方法是自然语

8、言，但自然语言中含有随机性和模糊性的定性值和定量值之间的相互转换，是空间数据挖掘的研究热点。云模型汲取了自然语言的优点，能在空间数据挖掘中兼顾随机性和模糊性，在用语言值表示的定性概念与其定量表示之间建立起定性和定量间的相互映射关系。提出基于数据辐射的云滴概率密度辐射估计、辐射亮度函数、辐射单元等概念技术，以避免云模型的假设和实际类型不符的风险。给出辐射亮度函数的导数概念，定义并证明辐射亮度函数的和、差、积、商的求导法则，推导出最佳辐射亮度函数是基于最佳辐射单元的辐射亮度函数。在此基础上，讨论云模型的辐射数字特征、辐射期望函数、逆向云发生器的辐射拟合算法，分析认为云发生器的误差主

9、要聚集在逆向云发生器中，扩展得到函数云模型。第四，根据数据场和云模型研究空间数据挖掘的概念空间、特征空间和基于认知层次的发现状态空间，提出“数据概念知识（规则+例外） ”的挖掘机理，数据场云聚类算法，以及基于数据场的极大剩余法或平均绝对值距离法的模糊综合聚类方法，并分别应用于二维数据集、土地评价数据的聚类知识挖掘。第五，研究空间数据清理的必要性、概念及其不完整的空间数据清理、不准确的空间数据清理、重复记录的空间数据清理、不一致的空间数据清理、空间图形图像的清理等基本技术，以及清理空间观测数据的误差的广义线性概括模型、粗差的稳健估计、检测方法和可靠性分析方法。基于云模型提出空间

10、数据清理的 DHP 法和矢量匹配法。DHP 法用于选择空间数据，以应用领域专家的先验知识收集目标样本训练数据并确定其权重；矢量匹配法根据空间实体的属性之间的相似程度，将数据清理中的异源空间数据的集成抽象为聚类分析，把同一实体的所有记录聚类，而把不属于该实体的记录分离。空间数据清理利用云模型实现空间数据的定性定量转换。最后，提出空间数据挖掘和知识发现的挖掘视角，在长江三峡的宝塔滑坡监测III 数据挖掘中应用验证本文的技术体系。宝塔滑坡区在近几年有全面蠕动复活的迹象，已经引起国家的高度重视。八类数据挖掘视角具有泛层次结构关系，根据其中三个不同层次的视角，基于云模型和数据场，在发现

11、状态空间中研究宝塔滑坡监测的空间数据挖掘和知识发现的技术与方法。利用该技术与方法挖掘得到的微观、中观和宏观三个不同粒度的可视化空间知识，呈现不同认知层次的“规则+例外” ，和宝塔滑坡区的自然现象和变化十分吻合。表明基于云模型和数据场，在发现状态空间中操作实现空间数据挖掘和知识发现，技术具有可行性，结果具有可靠性。关键词：数据场；云模型；空间数据不确定性；数据场函数；数据辐射；等势线；数据场云聚类；辐射亮度函数；辐射单元；云误差；云滴概率密度辐射估计；云的辐射数字特征；云的辐射期望函数；云的辐射拟合算法；函数云模型；模糊综合聚类；模糊聚类置信水平；极大剩余法；平均绝对值距离法；

12、基于认知层次的发现状态空间；粒度；概念空间；特征空间；空间数据清理； DHP 法；矢量匹配法；空间数据挖掘机理；空间数据挖掘视角；宝塔滑坡监测；土地评价 IV ABSTRACT The developments of the instruments to obtain spatial data, make the spatial data more complex, more changeable and bigger, which has been beyond the human ability to analyze. Those make it possible for spa

13、tial data mining and knowledge discovery (SDMKD) to come into being. Seen from its concepts, contents, applied theories and their developments, spatial data mining and knowledge discovery encircles spatial data, and it is unable for it to avoid spatial data uncertainties. If there are no spatial dat

14、a, spatial data mining and knowledge discovery will become the water without sources. Moreover, during the process of spatial data mining and knowledge discovery based decision- making, if the spatial data uncertainties are made good and right use of, it may be able to avoid mistaken information to

15、lead to mistaken decision- making, and measure information support degree. Therefore, it is necessary to put spatial data into the center of spatial data mining and knowledge discovery, consider the spatial data uncertainties, and apply the theories and techniques that deal with the spatial data unc

16、ertainties well. Data field tightly encircles the data, and cloud model well integrates the fuzziness and randomness. In respect of spatial data mining and knowledge discovery, they both give the ideal theories and techniques. There are two major contributions in this paper. One is data field, and the other is the improvement of cloud model. Both of the

展开阅读全文