chapter7电子数据交换－金锄头文库

资源描述

《chapter7电子数据交换》由会员分享，可在线阅读，更多相关《chapter7电子数据交换（66页珍藏版）》请在金锄头文库上搜索。

1、第七章其他数据挖掘技术和工具,第7章目录（1）,7.1 网络信息挖掘与网络信息检索 7.1.1 Web挖掘的概念 7.1.2 关于网络信息检索 7.2 WEB挖掘 7.2.1 Web文本挖掘 7.2.2 IDGS Web内容挖掘系统 7.2.3 Web结构挖掘 7.2.4 Web使用记录挖掘 7.3 空间数据与分布式数据挖掘 7.3.1 空间数据挖掘 7.3.2 分布式数据挖掘,第7章目录（2）,7.4 多媒体数据检索 7.4.1 多媒体检索过程及其特征提取 7.4.2 基于内容的图像检索 7.4.3 视频结构化及其检索 7.4.4 基于内容的音频检索,7.1 网络信息挖掘与网络信息检索,原

2、则上讲，可以在任何类型的信息存储上进行数据挖掘，以提取知识。为了从网络上的大量的数据集合中发现有效、新颖、有用、可了解的模式，数据仓库领域开发了网络数据挖掘技术，而解决网络数据挖掘的一个途径就是将传统的数据挖掘技术和Web技术综合起来进行Web挖掘。,7.1.1 Web挖掘的概念（1）,Web挖掘就是从Web文件和Web活动中筛选感兴趣的潜在的有用模式和隐藏的信息。Web挖掘是一项综合技术，涉及Web数据挖掘、计算机语言学、信息论学等多个领域。Web挖掘可以在很多方面发挥功能，如对查找引擎的结构进行挖掘、确定权威页面、Web文件分类、Web Log挖掘、智能型查询、建立Meta-Web数据仓库

3、等。,7.1.1 Web挖掘的概念（2）,1.Web上的数据的特点（1）Web页面的复杂性高于传统的文本（2）Web是一个动态性极强的信息源（3）Web面对的是一个广泛的形形色色的客户群（4）Web上的信息只有很小的一部分是相关的或有用的综上所述，Web挖掘是一个更有挑战性的课题，它执行的是对Web存取模式、Web结构、规则和动态的Web内容的查找。,7.1.1 Web挖掘的概念（3）,2. Web挖掘的含义与任务（1）Web挖掘的含义 Web挖掘是指从大量Web文件的集合C中发现隐含的模式p。如果将C看作输入，将p看作输出，那么Web挖掘的过程就是从输入到输出的一个映像，记作；

4、Cp （2）Web挖掘的任务如图7-1所示,7.1.1 Web挖掘的概念(4),3. Web挖掘的分类,Web 挖掘,Web结构挖掘,Web内容挖掘,Web使用记录挖掘,Web页内容挖掘,搜索结果挖掘,一般模式追踪,个人使用模式追踪,7.1.2关于网络信息检索（1）,Web信息检索是指从大量Web文件的集合C中找到与给定的查询请求q相关的、恰当数目的文件子集S。网络信息检索的过程也对应于一个映像，记作；（C：q)S 查找引擎工作的一般流程包括：使用Robot搜集Web文件、对文件集合建立逆向索引、分析客户的查询请求、匹配文件与咨询请求，以计算二者之间的相似程度、对查询结束进行排序以及客

5、户相关度反馈。在Web上的挖掘和信息检索是两种不同的技术，其区别主要表现在以下几个方面。（1）方法论不同（2）着眼点不同（3）目的不同（4）评估方法不同（5）他用场合不同,7.1.2关于网络信息检索（2）,1.信息检索系统信息检索技术是一项成熟的处理文本数据的技术。信息检索领域与数据库领域是并行发展的领域。信息检索领域中所用的传统模型是信息被组织成文档，且是信息量巨大的文档。信息检索的过程就是根据用户的输入，如关键词或示例文档，查找相关文档的过程。信息检索系统的典型例子是联机图书目录和联机文档管理系统。信息检索系统和数据库系统处理的是不同类型的数据。信息检索领域一般用查全率和查准

6、率对检索的效果进行量比评价。,7.1.2关于网络信息检索(3),信息检索领域一般用查全率和查准率对检索的效果进行量比评价。设与查询相关的所有文档集合记为A，系统检索出来的所有文档集合记为B，既相关又被系统检索出来的文档集合记为c(参见图73)，则查准率为度量系统检索出来的相关文档与系统检索出来的所有文档百分比 Precision=C/B 查全率则是系统检索出来的相关文档和与查询相关的所有文档的百分比 Recall=C/A,7.1.2关于网络信息检索（4),2.基于关键字和基于相似性的检索（1）基于关键字的检索在基于关键字的信息检索系统中，文档被看成字符串，可用一组关键字加以识别。用户

7、提供一个关键字或一组由关键字构成的表达式，由关键字进行查询。这样，用户可以找出包含关键字的全部文档。在基于关键字的信息检索系统中，还要考虑“同义词问题”。可以采用同义词的方法解决这个问题，对每个词都定义一个同义词。基于关键字的信息检索系统还有一个难题，就是“多义词问题”，即同一个关键字，在不同的上下文中可能有不同的含义。遗憾的是，目前这种基于上下文确定关键字含义的检索系统还不成熟。,7.1.2关于网络信息检索(5),（2）基于相似性的检索某些信息检索系统允许基于相似性的检索。这时，用户可给系统一个文档A，然后要求系统找出与A“相似”的文档。两个文档的相似性可以自定义，如根据一组共同的关键

8、词作为相似性。,3.文档的索引一个高效的索引结构，对于信息检索系统查询的高效处理是十分重要的。系统可以采用倒排索引定位，包含关键词的文档。倒排索引是一种索引结构，它包含两个索引表：文档表和词表。,7.2 Web挖掘,在web文本挖掘中，文本的特征表示是挖掘工作的基础，而文本分类和群集是两种最重要、最基本的挖掘方法。,7.2.1 web文本挖掘 (1),1文本的特征表示文本特征指的是关于文本的元数据，分为描述性特征和语义性特征。 2文本分类文本分类是一种典型的有监督式的机器学习，一般分为训练和分类两个阶段。,7.2.1 web文本挖掘(2),3文本群集文本群集是一种典型的无监督式的机器

9、学习问题。目前的文本群集方法大致可以分为层次凝聚法和平面划分法两种类型。,7.2.2 IDGS Web内容挖掘系统(1),IDGS系统(Information Discovering and Gathering System)是为了在WWW上自动进行中英文技术数据的搜集而设计开发的；IDGS能够根据客户提交的挖掘目标样本，在www 上自动查找客户所需的信息。,7.2.2 IDGS Web内容挖掘系统(2),1IDGS系统流程 IDGS系统采用了向量空间模型和面向字频统计的加权值评估技术，由特征筛选、原始网始查询、文件挖掘、模式匹配等4部分组成。,7.2.2 IDGS Web内容挖掘系统(

10、3),IDGS系统的工作流程为： (1)特征筛选对用户提交的挖掘目标样本进行特征筛选，生成挖掘目标的特征向量。 (2)网站查询在特征向量中取加权位最大的310个特征项作为查询关键词,向多个资源索引系统发送查询请求，将返回的结果URL作为文件挖掘的起点。,7.2.2 IDGS Web内容挖掘系统(4),(3)信息挖掘执行Robot程序查询到的原始URL开始进行文件挖掘。 (4)模式匹配筛选出原始文件的特征向量并进行特征匹配，把符合阀值条件的文件提交给用户。,7.2.2 IDGS Web内容挖掘系统(5),2关键问题的处理 (1)字频统计 IDGS系统设计应用领域为计算机方面的技术文件，

11、技术文件的特征项一般都是专业词汇，所以在进行特征筛选时，无需对普通词汇进行切分和字频统计。 (2)字典设置为解决VSM模型中要求特征词条相互独立与自然语言多样性之间的矛盾，IDGS系统建立了3个字典：主字典、同义字字典和蕴含词字典用于字频统计。,7.2.2 IDGS Web内容挖掘系统(6),(3)特征筛选与匹配 IDGS采用特征字频统计和VSM模型的方法进行特征筛选与匹配。 (4)Robot的改进准确性和时效性是网络上信息挖掘的两个关键性要求。兴趣模型是仿真人浏览时的兴趣心理所设计的一种Robot策略，按兴趣模型进行深度优先的浏览原理框图见图75。,7.2.3 Web结构挖掘(1

12、),Web结构是可以挖掘的。挖掘Web结构的目的是发现页面的结构和Web的结构，基础上对页面进行分类和群集从而找到感兴趣的页面。有关这类方法的研究提出了以下的思路。 1Page-rank方法假设要搜索某一给定话题的Web页面，这时人们除了希望得到与之相关的Web页面外, 还希望所检索到的页面具有较高的品质和权威性。,7.2.3 Web结构挖掘(2),2Hub/authority方法一般来说，一个有影响的杂志是递归地被其他的有影响的杂志大量引用，一个杂志j的影响力等于所有引用它的杂志的影响力之和，再根据引用j的杂志的数量对该和进行加权。与杂志的引用不同，Web链接结构具有特殊的特征。

13、,7.2.4 web使用记录挖掘,目前研究较多的web使用记录挖掘技术和工具可分为两大类：即模式发现和模式分析。,1web使用记录中的模式发现,客户查找模式的发现采用了来自人工智能、数据挖掘、信息论等领域的成熟技术，从 web使用记录中挖掘知识，但在新的环境中，有许多新的问题需要考虑和研究。在模式发现中，首先要解决的问题就是数据的预先处理，它主要包括如下两个部分：数据净化包括无关记录的剔除、判断是否有重要的查找没有被记录、客户的识别等问题：交易识别是指将页面查找序列划分为代表web业务或客户对话的逻辑单元。,2模式的分析,如果没有合适的技术和工具来辅助分析人员的了解，采用各种技术挖掘出

14、来的模式将不能得到很好的利用，所以开发各种分析技术和工具也是非常必要的。,3Web使用记录挖掘的基本流程,对Web Log分析和挖掘要经过系列的数据准备工作和建模工作。一个基本的流程如图7-7 所示。,7.3 空间数据与分布式数据挖掘,分布式数据挖掘是应用分布式算法，从分布式数据库中挖掘知识的过程。在分布式数据挖掘中，主要有适合水平式数据划分的分布式挖掘方法和适合垂直式数据划分的分布式数据挖掘方法。分布式数据挖掘是一种用途广泛的数据挖掘技术。,7.3.1 空间数据挖掘,空间数据挖掘需要综合数据挖掘与空间数据库技术的支持。利用空间数据挖掘可以加强对数据的理解，空间关系与非空间数据问关系

15、的发现，空间知识库的构造、空间数据库的重组和空间数据查询的优化。,1空间数据挖掘,地理信息数据库(GPS)是空间数据库的特定应用。基于关系数据库挖掘系统DB Miner, 开发的空间数据挖掘系统Geo Miner能在地理空间数据库中挖掘特征规则、比较规则、分类规则和数据聚类等。该系统拥有空间数据库模型、空间数据立方体、空间OLAP等模块(参见图78)，并且设计了专门用于空间数据挖掘的语言GMQL。,2空间数据挖掘用途,空间数据挖掘主要是对存储了大量与空间有关数据的空间数据库(如地图、预处理后的遥感数据、医学图像数据和VLSI芯片设计等数据)进行数据挖掘，主要是对空间数据库中非显式的知识

16、、空间关系和其他有意义的模式的提取。由于空间数据库包含大量的拓扑距离信息，需要按照复杂的多维空间索引结构组织数据。在访问这些数据时，需要采用空间推理、地理计算和空间知识的表示技术。这些技术一般比较复杂，需要效率很高的空间数据挖掘技术来处理。空间数据挖掘方法目前主要有空间数据分类、空间数据关税分析和空间趋势分析等。,7.3.2 分布式数据挖掘,分布式数据挖掘技术通常用于拥有分布式数据资源，或将集中式数据库按照水平方式或垂直方式划分后，分布在不同的站点上。在水平划分情况下，各站点上的数据是同质(同构) 的，即各个站点数据具有相同的属性集。在垂直划分的情况下，各个站点上的数据是异质(异构)的，即各个站点上的数据有不同的属性集。现实中的分布数据库大多是垂直划分的。,典型的分布式数据挖掘算法涉及如下两个步骤： 1)完成各个站点的局部数据分析，构建局部数据模型。 2)整合不同数据站点的局部数据模型，获得全局数据模型。,1适合水平式数据划分的分布式挖掘方法,一

展开阅读全文