具有模糊语义的Web信息资源获取技术研究与实现

资源描述

《具有模糊语义的Web信息资源获取技术研究与实现》由会员分享，可在线阅读，更多相关《具有模糊语义的Web信息资源获取技术研究与实现（4页珍藏版）》请在金锄头文库上搜索。

1、计算机科学2 0 0 2 V 0 1 2 9 N 9 8 ( 增刊)具有模糊语义的W e b 信息资源获取技术研究与实现* ，T e c h n o l o g ya n dI m p l e m e n t a t i o no fR e s o u r c eA c q u i s i t i o no nW e bw i t hF u z z yS e m a n t i c s许龙飞陈小宁 ( 暨南大学计算机科学系广州5 1 0 6 3 2 )A b s t r a c tAd e s i g na n di m p l e m e n t a t i o no ft h ep r o

2、 t o t y p eo fW e bi n f o r m a t i o nr e s o u r c e sa c q u i s i t i o ns y s t e mi si n t r o d u c e d As e a r c he n g i n eo fd o c u m e n ti n f o r m a t i o ni si m p r o v e da n dah e u r i s t i cs e a r c hs t r a t e g yw i t hM u l t i t h r e a d i n ga n dd i s t r i b u t i

3、 n gi si m p l e m e n t e d I ti n t r o d u c e sf u z z yr e t r i e v a lm o d e lo nt h eo b j e c td o c u m e n t s Ah e u r i s t i ca n df u z z ys t r a t e g yo ft h em a t c h i n gb e t w e e nr e s o u r c ea n do b j e c td o c u m e n t si sa d o p t e da n di s s u e so ft h ei n f

4、o r m a t i o na u t o a c q u i s i t i o no nt h eW W Wi ss o l v e da sw e l l K e y w o r d sR e s o u r c e sa c q u i s i t i o n ，D a t am i n i n g ，S e a r c he n g i n e ，F u z z ym a t c h i n gW w w 自1 9 9 1 年出现以来，已经发展成为上亿个用户，数以百万个站点，存储了数亿个页面的巨大的全球化分布式信息空间。它的超文本形式包含了各种新闻报道、商业信息、技术资料、科研文献

5、与文化娱乐等多种类与形式的信息集。为人们提供一个极其丰富而有价值的信息资源。从如此浩瀚的海量资源库中提取有价值的知识，服务于行政、企业的高层决策是一项极有挑战性而困难的课题。从I n t e r n e t 上获取信息资源是基于W e b 的数据挖掘技术的第一步。本文将在国内目前所采用的向量空间搜索模型与R o b o t 搜索引擎技术 1 “5 基础上，提出文本模糊向量空间搜索模型与具有模糊启发搜索策略的R o b o t 引擎技术，介绍一个基于W e b 的信息资源获取系统( W R A S ) 的设计与实现原理和策略。1 系统的结构与工作原理与普通的网上信息资源获取系统不同，现有的网

6、络检索工具通常由R o b o t 、索引数据库与查询服务三部分组成，其R o b o t 在w w W 上的漫游是无目的的，由于本系统作为基于W e b 的知识发现( 数据挖掘) 系统的前驱部分，其目标( 主题) 是确定的，应在扩大系统的查全率的同时，取得尽可能高的精度( 查准率) 。与传统的搜索引擎相比，本系统的主要特点是：( 1 ) 改进了文本信息的搜索引擎，实现了多线程分布式和启发式搜索策略的R o b o t 模型，加快系统的搜索速度。 ( Z ) 在目标文档的向量空间V S M 的基础上，引入了模糊语义，提出目标文本的模糊搜索空间模型的概念( F V S M ) 。( 3

7、) 具有较灵活的用户接口，用户可以通过输入目标文档确定搜索的目标地址或主题关键词或简单关键词及其组合，或指定网址范围查询。 ( 4 ) 源文本与目标样本的匹配策略采用了带启发性规则的模糊匹配策略，从而减少了相应的手工操作，提高了文档的查全率与精度。系统的结构如图1 。目标样本：。篓飘煮I i 户判网莓蓦Il查询结果l1 釜! ! 墨l纛| i 憾查询条件1 户I R D B_ I 士ll一可视化结果I 著I哑竺! ! ! 型 ( 文本信息资源库)( 数据采图1W R A S 系统结构图模式匹配理)系统的主要工作原理是，首先指定系统搜索 R o b o t 的搜索策略，如起始的U R L

8、列表、指定样本主题( 或由挖掘目标样本而获取的特征关键词集合) 和搜索的网络域等系统设置；再利用启发性规则( 如启发式函数等) 获取相关的U R L ；系统启动改进后的分布式的R o b o t 在网上搜索相关网站，获取相关文档；并采用基于目标文本的文本文件模糊空间模型算法获取相应的文本文件信息；对文本文件信息* ) 本文研究得到国务院侨办重点科研项目基金、北京大学视听觉信息处理国家重点实验窒以及暨南大学2 1 1 3 ：程项目基金资助。许龙飞教授研究方向为数据库系统、知识工程等。陈小宁硕士主要研究领域是数据库系统及其应用等。f、3 0 5 做进一步的特征提取；然后与目标样本进行相应的

9、模式匹配( 如基于向量空间模糊匹配等) ；最后获取用户满意的文本文件，存入数据库。同时可以通过系统可视化界面，将查询结果返回给用户。本系统的操作系统平台为：W i n d o w sN T 或 W i n d o w s g x 系列，数据库平台为S Q LS e r v e r7 0 ，设计维护编码工具为M i c r o s o f tV i s u a lS t u d i o 等工具套。2 W R A S 系统的功能模块结构下面将较详细分析系统各主要模块的数据结构，包括文本目标空间模型、文本文件特征向量、文本库的数据结构等。 2 1 文本目标空间模型目标表示 4 是指以一定的特征项(

10、如词条或描述) 来代表目标信息，在信息挖掘时用这些特征项作为文本表示的基本单位元来评价未知文本文件与用户目标的相关程度，目标表示的构造过程就是挖掘模型的构造过程。在一般的V S M 中，我们将文本文档看作为是由一词条向量( T 。，T 。，T 。) 构成，这些词条可以是字、词或短语，对于每一词条T 。，都可根据其在文档中的重要程度赋以一定的权值W i 。我们可以将其看成一个n 维坐标系W 。，W 。，w 。所对应的坐标值，因此每一篇文档都可映像为由一组词条向量张成的向量空间中的一个点。定义2 1 文本目标空间模型( V S M ) 文档空间V 被看作是由一组正交词条矢量所张成的矢量空间

11、。每个文档d 表示出一个范化特征矢量y ( d ) 一( 1 ，w ( t 1 ) ；t 2 ，w ( t 2 ) ；t 。，w ( t 。) ) 。( 1 0而且认为用户输入的关键词的顺序代表了它的重要性的程度，所以对于位置靠前的单词在检索获取时有相对比较高的优先级。 2 2 文档特征向量3 0 6 与数据库中的结构化数据相比，W e b 文本文件仅具有半结构，或者根本就没有结构。即使具有一些结构，也是着重于格式，而非文档内容。需要对文本进行预处理，抽取代表其特征的元数据。这些特征可以用结构化的形式保存，作为文档的中间表示形式。文本特征指的是关于文本的元数据，分为描述性特征以及语义性特征。

12、系统定义的文本描述性特征是：文档名、获取日期、大小、类型、修改日期、U R L 等；文本的语义性特征为：文本的作者、机构、标题、内容、前言、结论、时间等。 2 5 文本信息资源库数据结构在数据存储问题上，考虑到W e b 的数据结构类型和根据不同的分析结果和要求，以及系统作为以后数据挖掘方面功能的进一步扩展的需要，设计的文本信息资源库数据结构如下：表1 ：T a b S a m l n f o 表( 存储每个目标样本的信息的表)结构： M i d每一个样本记录的唯一i d 号 S a m I n f o每一个样本记录的具体内容 S a m P a t h每一个样本记录的用户输入路径表2 T

13、a b S u b j e c t i o n D e g r e e 表存储某一U R L 对应相应目标样本的模糊相似度；而表3 T a b W e b R e s o u r c e 表为存储系统获取的每个U R L 的相应信息资源的表，其结构略。5 W R A S 系统实现的关键性技术W R A S 资源获取系统主要由搜索引擎、数据采集及预处理、模式匹配、基于R D B 的文本信息资源库及用户接口等五大模块组成，以下将逐一介绍其具体实现的关键性技术。 5 1 基于改进搜索策略的R o b o t ( 1 ) 改进的R o b o t 搜索策略系统设计的R o b o t 是在传统

14、的深度优先的算法上进行了深度限制，即采用有界深度优先算法，系统所设置深度d = 5 。本系统采用的搜索策略主要分盲目搜索和定向搜索两种。盲目搜索只是根据用户输入的搜索I P 范围，简单地访问每个存在的I P 地址。系统所采用的第二种搜索策略是定向搜索，这种搜索策略相对来说比第一种要快得多，它是通过搜索一系列已知域并判断哪些仍然处于在线状态而且可以对外界快速响应。搜索时使用的域列表可以通过多种方法获得，本系统所使用的是用户设置代理时所输入的地址域列表。本系统基于设置的R o b o t 启发式搜索策略的要点是：先定义用户R o b o t 的设置为：条件A ：用户设定r o b o

15、t 的搜索范围为从地址1 到地址2 的搜索；条件B ：用户设定一系列的地址列表让r o b o t在特定的时间间隔里对该列表的所有地址进行爬行搜索；条件C ：用户设定r o b o t 的搜索目标样本；条件D ：用户设定的资源匹配相似度。根据用户设定R o b o t 所采用的搜索策略有：策略A ：如果满足( 条件A ) ，系统将采用有界深度优先的盲目搜索策略，并不考虑文档信息资源与目标样本的模糊匹配度；策略B ：如果满足( 条件B ) ，系统将采用有界深度优先的定向搜索策略，并不考虑文档信息资源与目标样本的模糊匹配度；策略C ：如果满足( ( 条件A ) ( 条件C ) ( 条件D ) )

16、，系统将采用有界深度优先的盲目搜索策略，同时需要考虑文档信息资源与目标样本的模糊匹配度，当其模糊匹配度大于条件D 时，将文档资源存入数据库；策略D ：如果满足( ( 条件B ) ( 条件C ) A ( 条件D ) ) ，系统将采用有界深度优先的定向搜索策略，同时需要考虑文档信息资源与目标样本的模糊匹配度当其模糊匹配度大于条件D 时，将文档资源存入数据库；目前系统已全部实现上述4 种启发式搜索策略。由于系统采用以上的启发搜索策略，从而使得用户可简单方便地控制定义其资源获取范围，减少了相应的手工操作，同时也提高了文档资源的查全率与精度。 ( 2 ) 多线程R o b o t 的实现本系统所设计的R o b o t 采用了基于W i n d o w s N T 的多线程编程技术实现，使搜索具有并行处理能力，从而改善其搜索速度上存在的瓶颈问题。多线程允许程序中一进程的多个部分并行执行，它能使多个应用程序在同一背景中执行各自的操作。多线程对R o b o t 来

展开阅读全文