DeepWeb信息抽取研究

上传人:ss****gk 文档编号:209182470 上传时间:2021-11-09 格式:DOC 页数:15 大小:65.25KB
返回 下载 相关 举报
DeepWeb信息抽取研究_第1页
第1页 / 共15页
DeepWeb信息抽取研究_第2页
第2页 / 共15页
DeepWeb信息抽取研究_第3页
第3页 / 共15页
DeepWeb信息抽取研究_第4页
第4页 / 共15页
DeepWeb信息抽取研究_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《DeepWeb信息抽取研究》由会员分享,可在线阅读,更多相关《DeepWeb信息抽取研究(15页珍藏版)》请在金锄头文库上搜索。

1、Deep Web信息抽取研究摘要针对DeepWeb信息资源的利用问题,指 出对其进行信息抽取的意义,分析对比在信息抽取过 程中处理查询接口和抽取结构化数据这两个主要步骤 所使用的技术,采用基于关键词查询和建立文档对象 模型的方法对专利数据库进行抽取实验。通过分析实 验结果,验证抽取方法的准确性,指出不足之处和解 决的途径,以期达到充分利用DeepWeb信息资源的目 的。关键词Deep Web信息抽取查询接口命 名实体识别文档对象模型分类号TP31I1、Deep Web的特点随着网络信息资源的爆炸式增长,如何从中获取 用户所需要的信息成为人们所关注的焦点问题。人们 可以通过搜索引擎来获取需要的信

2、息,但这是建立在 搜索引擎对网页进行索引的基础上。而有很多网页是 搜索引擎所无法建立索引的,这些具有隐形特性的网页集合被人们称之为Deep Web或Hid_denWeb。 Deep Web 的概念最初由 Dr.Jill Ellsworth 在 1994年提出,指的是常规搜索引擎不能索引到的网络资源。根据 2001 年 Michael K Bergman 关于 Deep Web 研究 的白皮书数据,相对可以被搜索引擎索引到的Surface Web而言,Deep Web的规模是其400至500倍,而 根据文献2中关于DeepWeb的调查报告,从2000年 到2004年,它的规模增长了 37倍,并且

3、还在不断 增长中。由以上的研究数据可知,如果能够将如此规 模庞大的网络资源的信息内容有序地抽取、整理出来, 对于情报分析和研究工作是很有意义的。2、抽取方法概述Deep Web中的信息资源,根据文献2中的分析, 基本上是以网络数据库的结构进行存储。那么在访问 时,首先要经过数据库的访问接口,普通搜索引擎不 能索引Deep Web内容的原因也就在于其不能同Web 表单进行交互,因此也就无法取得检索结果页面进行 索引。那么要实现对这种资源类型的信息抽取,除必 要的抽取程序外,还需要处理数据库查询接口的交互 问题,以下分两部分进行介绍。2.1处理查询接口Web表单,其实质是后台数据库查询接口。用户

4、通过查询接口输入相应的信息来查询数据库内容,而 抽取程序通过特殊定制的表单交互程序来访问数据库按交互程序的特点,可以分为两类:2.1.1通过关键词覆盖的方法使查询有选择地覆 盖结果集。此类方法的原理可以表述为:给定查询q, 使用P(q,)表示对于查询qi服务器所返回的结果页面 占所有可能结果页面的比例,那么目标就是寻找一个 查询集合(ql: q 2,qn)使得返回结果P(ql V q2 V Vqn)值最大化。在实际查询中,有两种关键词选择策 略:一是随机策略,即从候选词典中随机选取关键词 用于提交查询表单;另一种是适应性策略,通过分析 之前查询所返回的结果集,估测待选查询关键词的返 回页面数,

5、并找到可能返回数最高的关键词。适应性 策略是一个迭代计算的过程,步骤上比随机策略复杂, 但根据文献5中的实验结论可知其查询覆盖率一般 要优于随机策略。2.1.2根据对表单形式的查询接口进行的研究所 总结出的基于查询接口模型的方法表单内一般含有以 下常见的控件元素:文本框、选择列表框、单选按钮、 复选按钮等。这种方法将表单内各种控件元素进行归 纳分析,解析控件元素的标签元素和值域类型以构造 出一个查询接口模型。此模型的形式如二元关系组的 集合:F=(E, DI), (E2,D2),,(En,Dn),其中 F 代 表当前表单,E是标签元素,D是值域。如专利数据 库的查询表单通常由专利类型、申请专利

6、号、专利名 称、申请专利权人等元素构成,有以下结构的模型: F=(专利类型,发明专利,实用新型专利,外观 设计专利),(申请专利号,字符串),(专利名称,字符串),(申请专利权人,字符串,(,)这个模型描述了这个专利数据库的查询接口特征 用(L,V)的二元关系来表示输入表单的信息,其中L 是标签名,V是输入值,所有的(L,V)关系组成集合Label Value Set(Lvs)0对于每个标签元素E,它的标签名是 L=label(E),对应有V=vl, v2,vn的值集合来满 足输入条件。那么对于一个表单F,其所有可能的输 入集是(F,Lvs)=VlXv2XXvn,所需要的输入集就是 使有 P(

7、E1 /VI,EnVn)=l-ll(l-Mv),其中 Mv 是 值v的相关度。这里的相关指的是该输入值与值域的相关性,其计算有不同的实现方法,常见的方法有计 算相关性权重以及计算特征向量的夹角等。2.2抽取结构化数据信息抽取的信息类型主要分为:结构化信息、半 结构化信息和自由格式文本,而要抽取的Deep Web 资源对象一般以半结构化的查询返回网页的形式存在 对它进行信息抽取实际上是将半结构化网页内的信息 以结构化的形式抽取出来的过程。根据MessageUnderstandingforComprehension(MUC)对信息抽取的分类,按信息抽取的内容和抽取信息的聚集水 平,信息抽取可以分为

8、命名实体识别(Named Entity Recognition)、多语种实体识别任务(Multi-lingual Entity Task)、模板元素(Template Element)、参照(coreference)、 模板关系(TemplateRelation)、情景模板(scenario Template)这6种类型。基于以上分类,对Deep Web 的信息抽取方法可归纳为以下三类。2.2.1基于命名实体识别的抽取方法命名实体识 别是信息抽取中的基础类型,抽取系统从信息源中标 识出命名实体并按相应的实体名进行分类。在检索结 果页面中,存在大量可标注信息,如文献检索结果页面内的题名、摘要、作

9、者等和专利检索结果页面内的 申请号、公开号,专利权人等。此类方法在实现上一 般借助文本识别工具,将标注的文本信息匹配识别出 来。针对返回页面,通常使用正则表达式匹配标注的 字符串。正则表达式又称正规表达式,是指用来描述 或者匹配一系列符合某个句法规则的字符串的单个字 符串表达式。标注命名实体也就是对要抽取的数据编 写相应的正则表达式,然后根据这些正则表达式就可 以把命名实体从返回页面中抽取出来。这种方法的优 点在于正则表达式构造过程比较简单,而检索结果页 面上的命名实体数量一般不会超过30个,因此使用这 种方法能够快速地构造抽取程序,并且可以保证很高 的准确率(见表1)。但缺点就是命名实体的表

10、示和正则 表达式的紧密耦合,一旦返回页面发生改变,就得重 新进行标注,导致抽取程序缺乏通用性。2.2.2基于模板的抽取方法在MUC对信息抽取的 分类里,模板元素指的是从文本中抽取特定类型的实 体信息,并将这些信息填写到预先定义的属性模板中。 基于模板的抽取方法的核心就是预先构建属性模板的 过程。在实现时,针对返回页面,一般先将其解析成 语法树,再由语法树生成抽取模板。在网页信息抽取 中,使用文档对象模型(Document ObjectModel,DOM)来生成语法树是常用的手段。DOM文档中的逻辑结构 可以用节点树的形式进行表述。通过对网页进行解析, 页面中的元素便转化为DOM文档中的节点对象

11、,生 成的语法树也称为DOM树,而包含所有待抽取节点 的DOM树就是抽取模板。与基于字符串匹配的抽取 方法比较,基于模板的抽取方法通过模板这个抽象概 念将被抽取对象与抽取程序解耦,因此具有较高的通 用性,但模板依赖网页结构生成,仍然具有一定的局 限性。2.2.3基于情景的抽取方法这里的情景(Scenario)指的是要抽取的特定信息实体及实体之间的关系。这 种方法抛开了信息载体的表面结构,挖掘信息的内部 联系并将这种关系提取出来。该方法综合涉及实体的 标识、实体与不同场合的自身及不同实体间的参照、 在模板基础上的模板元素间关系的抽取和由实体到事 件的填充并还原整个事件模型等内容。虽然目前的英 文

12、抽取系统在命名实体和实体关系的识别方面已达到 或接近实用的水平,但在真正使用中,由于实体到事 件和还原事件模型方面涉及自然语言处理中的一些核 心问题,抽取性能还有待提高。除以上三种方法,还有一些其他信息抽取方法和 模型,如基于语言模型的隐马尔可夫模型和最大熵模型、基于神经网络、本体以及基于元数据标引等抽取 方法。但Deep Web的信息内容主要由结构化网页构 成,这些抽取方法有些不适用,有些被前述三类方法 所包含。3、基于模板的专利数据抽取实验对于专利数据,其绝大部分的都存储在专利数据 库内,那些可以通过网络来访问的专利数据库构成了 Deep Web资源的一部分,并且很难被搜索引擎索引到。 使

13、用上述的信息抽取方法对这部分专利数据进行抽取, 对于专利情报研究工作很有帮助,同时也可以验证所 总结出的信息抽取方法的有效性。这里对美国专利数据库(USPTO)和中国专利数据 库内的部分资源进行抽取。在设计表单处理程序时, 考虑到实验的规模,没有采用遍历整个数据库的形式, 而是选择一些关键词在其所代表的领域内进行小范围 内的信息抽取。经由分析数据库的查询表单,将关键 词和限定条件(专利年份、类型等)封装到HTTP POST 数据包内,发送到服务器端,并取得返回的检索结果 页面。在对结果页面进行信息抽取时,在保证准确率 的前提下选择适用性较高的基于模板的抽取方法,对 返回页面进行解析,生成抽取模

14、板,具体步骤如下: 页面转换。使用Tidy等工具将HTML格式的返回 页面去除页面噪音,并转换为XML或者XHTML的格 式以方便DOM树的生成。DOM遍历。使用DOM工具遍历转换后的文档内 容,生成对应的DOM树。树的结构如图1所示:生成抽取模板。将DOM树上不需要的节点裁剪, 得到关于抽取节点的最小DOM树,即为模板。如把 图I中TD “申请专利号”、TD- “申请日”等多余 标签所在的路径去掉后得到的树就是一颗包含页面上 所有专利信息的最小DOM树。信息抽取。在得到抽取模板后,就可以对整个检 索结果页面集进行抽取。对毎个页面,依次进行上述 前两步处理,得到DOM树对象,然后按最小DOM树

15、 抽取模板取得树上各节点的值。在程序实现时,涉及 树节点的定位问题,常用的方法是采用XPath工具来 解决。对于XML文档,XSL(可扩展样式表语言, Extensible Stylesheet Language)使用 XPath 来标识 XML 文档中的元素位置。对于抽取模板,用XPath表达式 的形式把各节点的位置信息记录下来,而对于检索结 果页面生成的DOM树,就可以使用根据模板得到的XPath表达式来把需要的节点找到。如把图I中申请专利号、申请日、专利名称、公开号和公开日这几 个节点的位置用XPath表达式来描述就是一个如下的 集合:集合表示的是各节点及其位置的一一对应关系,其中的数字

16、序号表示兄弟节点的顺序(图1中同一颗子 树内最左边节点的位置计为1,其兄弟节点位置计数 向右递增)。那么对于已经DOM化后的检索结果页面, 就可以使用以上XPath表达式来定位节点并获取值。按以上方法,对两个专利数据库的部分专利数据 进行抽取,得到实验结果如表2所示。实验数据来自对两个数据库内有关纳米颗粒的专 利数据,都抽取100项专利,在美国专利中一共有129 项相关专利,得知召回率是100/ 129=77.5%,而由于 该专利数据库检索结果页面本身的结构上差异比较大 的原因,很多页面所包含的待抽取信息项(抽取节点数) 并不相同,导致抽取模板的适用性不高,直接影响抽 取准确率即抽取记录中相关记录占总抽取记录数的比 例;而中国专利数据的准确率很高,达到了 98.7%,原因在于该专利数据库检索结果页面结构统一,每个 页面均含

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号