基于语义相似度的空间数据挖掘模型

资源描述

《基于语义相似度的空间数据挖掘模型》由会员分享，可在线阅读，更多相关《基于语义相似度的空间数据挖掘模型（9页珍藏版）》请在金锄头文库上搜索。

1、目目录录摘要.1关键词.1Abstract.1Keywords.2引言.21 语义相似度.22 空间数据挖掘模型.32.1 空间数据挖掘概述.32.2 当前几种主要的空间数据挖掘模型.43 基于语义相似度的空间数据挖掘模型.53.1 语义相似度对数据的操作与处理.63.2 空间数据的挖掘方法.7结语.7参考文献 .71基于语义相似度的空间数据挖掘模型基于语义相似度的空间数据挖掘模型姓名：* 学号：*学院：城市与环境科学学院专业：地理信息系统指导老师：* 职称：副教授摘摘要要：本文在分析当前两大主流数据挖掘模型及语义相似度常用计算方法的基础上，论述了空间数据挖掘与语义相似度的集成模式，并

2、结合语义相似度的计算方法和数据挖掘的现状，探讨了基于语义相似度的空间数据挖掘模型，并简要分析了该模型的各个模块和基于此模型的空间数据挖掘的过程。关键词关键词：语义相似度；SDM；空间数据挖掘模型；GISA Spatial data mining model based on semantic similarityAbstract: Based on the analysis of the current two big mainstream commonly used data mining models and semantic similarity calculation method,

3、on the basis of discusses the integration of spatial data mining and semantic similarity model, and combining the semantic similarity calculation method and the current situation of data mining, discussed the model of spatial data mining based on semantic similarity, and the brief analysis of the va

4、rious modules of the model and process of spatial data mining based on this model.Keywords: Semantic similarity; SDM; Spatial data mining model; GIS引言引言随着信息时代的到来，各种各样的信息飞速增长，在这个知识爆炸的时代，如何从浩如烟海的信息中找出对自己有用的信息并加以分析、利用，是目前摆在数据挖掘领域的主要课题。数据挖掘从出现到现在只短短二十多年的时间，而空间数据挖掘则更年轻，但数据挖掘根据应用的具体需要而产生，因此一经出现就显示出强大的生命力。

5、传统的数据挖掘技术是基于数据仓库，这类数据仓库通常有上百个属性和数万个记录，并且数据表之间包含复杂的关系，这就必然导致数据挖掘过程中2搜索维数和搜索空间的激增，同时也增加了不确定性和错误模式出现的可能性。1语义相似度是指不同词语间的可替代程度，本文将在充分分析语义相似度和空间数据挖掘等理论的基础上，提出一个基于语义相似度的空间数据挖掘模型。1 1 语义相似度语义相似度语义相似度是指不同词语之间的可替代程度，国内学者刘群等对语义相似度2的定义是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。即若两个不同词语在上下文中互相替换且不改变文本的句法语义结构程度的可能性越大，那

6、么这两个词语的相关性越高，反之越低。度量两个词语关系的另一个重要指标是词语的相关度。词语相关度是指两个词语在同一语境共现的可能性，它反映了两个词语的相互关联程度。可以认为，语义相似度反映概念之间的聚合特点，而词语相关度则反映概念之间的组合特点。Dekang Lira 认为任何两个词语的相似度取决于它们的共性(Commonality)和个性(Differences)，然后从信息论的角度给出了定义公式：(1),(log),(log),(BAndescriptiopBACommonpBASim其中，分子表示描述 A，B 共性所需要的信息量；分母表示完整地描述 A，B 所需要的信息量。刘群、李素建以基

7、于实例的机器翻译为背景，认为语义相似度就是两个词语2在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。两个词语，如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大，二者的相似度就越高，否则相似度就越低。对于两个词语，如果记其相似度为Sim()，其词语距离为Dis(21,WW21,WW)，根据刘群、李素建的公式：21,WW(2),(),(2121WWDisaaWWSim其中是一个可调节的参数。的含义是：当相似度为0.5时的词语距离值。aa词语距离和词语相似度是一对词语的相同关系特征的不同表现形式，如果两个概念之间的语义距离越近，就认为它们越相似，因此二者之问可

8、以给出一个简单33对应关系：(3),(),(2121WWDiskWWSim其中，Dis()为树中所代表的结点在树中的距离，k为比例系数。21,WW21,WW一般地说，相似度一般被定义为一个0到1之间的实数。特别地，当两个词语完全一样时，它们的相似度为1；当两个词语是完全不同的概念时，它们的相似度接近于0。词语距离有两类常见的计算方法，一种是根据某种世界知识(Ontology)或分类体系(Taxonomy)来计算，一种利用大规模的语料库进行统计。42 2 空间数据挖掘模型空间数据挖掘模型2.12.1 空间数据挖掘概述空间数据挖掘概述空间数据是和地理位置相关的数据，具有空间性、基础性、非结构性特征

9、，在城市规划、资源管理、GIS 空间分析等领域，空间数据是最主要的信息载体，目前对空间数据的获取、处理、管理、利用还存在许多尚未解决的问题，数据挖掘就属于在空间信息利用领域急需解决的问题之一。空间数据挖掘就是在空间数据集合中发现知识，就是提取感兴趣的空间模式和特征、空间数据与非空间数据之间的联系、以及不是显式地存放在空间数据库中的其他数据特点。空间数据挖掘能够从大型数据库抽取有用并且规范化了的知识，能够理解空间数据，发现空间和非空间数据的联系，构造基于空间知识的查询优化，重组空间数据库，抽取共同特征等。它广5泛用于地理信息系统(GIS)、遥感遥测、图像数据库、医疗成像、机器人导航以及大量使用空

10、间数据的其他领域。空间数据发掘可用于游览空间数据库、理解空间数据、发现空间联系以及空间数据与非空间数据之间的关系，重组空间数据库，构造空间知识库，优化空间查询等。2.22.2 当前几种主要的空间数据挖掘模型当前几种主要的空间数据挖掘模型2.2.1 OLAM 模型加拿大 Simon 大学教授 Han.J.W等在数据立方体的基础上提出多维数据挖掘6的概念,其基本操作是将挖掘功能( 关联、分类、聚类等)与 OLAP 的钻取结合。在数据立方体中,数据挖掘可在多维和多层次的抽象空间中进行, 利于灵活地挖掘知识。4OLAM 模型建立在多维数据视图的基础之上,因此,基于数据立方体的挖掘算法是其核心所在。数据立方体的计算与传统挖掘算法的结合使得数据挖掘有了极大的灵活性和交互性。OLAM 的整个体系结构分为 4 个层次:数据存储层、多维数据库层、OLAP/OLAM 层和用户接口层。OLAM 服务器通过用户图形接口接收用户的分析指令, 在元数据的指导下, 对数据立方体作一定的操作, 然后将挖掘分析结果展现给用户。2.2.2 影响域模型OLAM 模型的不足之处是没有建立一个统一的模型,只是将数据立方体作为

展开阅读全文