基于heritrix的web信息抽取

资源描述

《基于heritrix的web信息抽取》由会员分享，可在线阅读，更多相关《基于heritrix的web信息抽取（19页珍藏版）》请在金锄头文库上搜索。

1、基于基于 HeritrixHeritrix 的的 WebWeb 信息抽取信息抽取rtib 信息抽取陈俊彬曹树金中山大学资讯管理系广州 5100006 摘要针对现阶段 Web 信息抽取技术的不足，提出一种基于Heritrix 的精确抽取方法，由三个分别独立的功能模块共同完成。与一般信息抽取不同，本方法注重于在精确抽取的前提下实现通用化，做到可以根据数据库表的字段来进行最小单位的信息抽取，并且较好地解决信息采集通用性和准确性之间的矛盾。. 关键词HrtiHMLasrWeb 数据采集eirx 信息抽取. Tpre分类号G25073 WebInfrtotatosdortiomainExrcinBaen

2、Heirx eun ahnChnJnbiCoSujiDepartmentofInformationManagement，SunYatsenUniversity，Guangzhou510006 AbtathsaeitoueaehdoacccrtifrainetatoaeoeirxacccrigthhrafWenosrcTipprnrdcsmtofuaenomtoxrcinbsdnHrtiodnotesotgeobifrmaroxrcintcnlgh ytmiooeftrersetvdueeetfosaafifrtoxrcin，inetatoehooyTessescmpsdoheepciemolD

3、if ffrnrmuulwyonomainetatothtd iounpeciionaelllaeeratyIcnetrattemiim uitofifortiocodigthefedoalnemehosfcsorsswsgnlitaxchnmunnmanacrnotilftbeidaasetbaKewrseirxifrtoxrcinHTprebifrtocustoyodHrtinomainetatoMLasrWenomainaqiiin 的信息抽取技术需要用户的大量参与，但自动化程度不高；而自动化程度高的抽取技术其准确率和适应性较低，实用性较差。即使是机器学习，也要通过大量的Web 信息抽取

4、(Webinformationextraction，WIE)的样本学习来提高获取规则的自动化程度，这意味着系目标是把文本里包含的信息进行结构化处理，转化成统需要经过较长时间的学习才能获得较好的查准率。特定的结构，以便于理解和利用。随着. Intemet 的迅猛纵观信息抽取技术的发展历史，研究者们提出了发展，Web 已经成为全球传播与共享科研、教育、商业不少优秀的抽取策略.。从实现方法的原理出发，可和社会信息等最重要和最具潜力的巨大信息源。面对以将信息抽取技术划分为 4 个类别：基于自然语言如此巨大的互联网信息库，如何快速、有效、经济地得理解方式；基于 ontology 方式；基于网页结构特征到

5、某个主题的所有相关信息就成了当前一个十分热门方式；基于统计学习的方式。基于自然语言理解方的研究课题。与传统的信息资源相比，Web 上信息资式的信息抽取在一定程度上借鉴了自然语言处理技源有着分布性、异构性、开放性、动态性和庞大性等特术，利用子句结构、短语和子句间的关系建立基于语法点，这些特点导致 Web 上数据的信息接口和组织形式和语义的抽取规则，实现信息抽取。其缺点是抽取速各不相同，也使得 Web 上的信息资源不能被有效的利度慢，使用范围窄，很难做到通用。基于 ontology 方式用。在这样的背景下，Web 信息抽取技术成为了研究主要是利用对数据本身的描述信息实现抽取，对网页的热点。结构的依

6、赖较少。只要事先创建的应用领域的 ontolo-g)r 足够强大，系统可以对某一应用领域中各种网页实2 艾献绿述现信息抽取。目前只能对特定领域构建，并且还只能采用半自动的方式由人工参与，这样使得该方法要求在. Web 信息抽取领域中，信息抽取的准确性和通很高，工作量巨大。基于网页结构特征方式的特点用性之间的矛盾一直是该研究领域的难题。性能较好是根据 Web 页面的结构来定位信息，在信息抽取之前收稿 ri 期：2000807222 修日期：200080911 本文起 Ij：贞码：1 112115 本文责任编辑：易【三112。LIBRARY AND INFORM ATION SERVICE。通过解

7、析器将 Web 文档解析成语法树，然后通过自动或半自动的方式产生抽取规则，最终转化为对语法树的操作来实现信息的抽取，本策略实现简单，抽取的准确性好，但要求人工参与。基于统计学习的信息抽取策略是根据统计学原理，首先构造一个模型以模拟信息抽取的过程，应用统计学方法从训练语料中得出模型的参数；然后用训练好的模型对待抽取语料进行信息抽取。该方法需要经过较长时间的样本学习，且实现复杂。对信息抽取技术的划分标准其实有很多，并不限于以上所提。各种信息抽取策略针对特定的场合都有其独特的优势，也有其相应的缺点。其中，基于网页结构特征的信息抽取是现阶段最为常用的抽取手段，实现起来相对简单，可进行精确的信息抽取。在

8、现阶段的研究中，已有不少文献针对这一抽取策略提出了相对可行的实现方法，例如基于 DOM 树的自动抽取和基于机器学习的抽取技术。这类方法重点关注信息抽取的通用性，在准确性方面有待提高。正如前文所述，通用性和准确性之间的矛盾一直是信息抽取领域的难题，然而现阶段在保证信息抽取的准确性，又不失通用性的方面还没有较为理想的实现方法。大部分的抽取方法都是重点先考虑通用性；也有一些文献提出了很好地很精确的抽取方法，但是却没有实现相对通用性，抽取系统的可移植性和可维护性很差，也难以应对千变万化的. Web 页面。3 系统分析与设计笔者在实践的基础上提出一种以 Heirxrti 为基础，结合 HTML，arse

9、r 的信息抽取思路，下面将给出具体实现方法和抽取系统。本方法注重于在精确抽取的前提下实现通用化，做到可以根据数据库表的字段来进行最小单位的信息抽取，并且较好地解决信息采集通用性和准确性之间的矛盾，同时具有较好的可扩展性和抽取速度。本抽取系统主要用于对论坛信息的精确抽取，以实际的例子来阐述一种信息抽取的思路，在设计上采用分层与模块分治的设计思想，保证系统有良好的移植性和扩展性，这个对于变化无常的 Web 信息来说非常有必要。系统主要包括三个模块：数据采集模块、页面清洗模块、数据库模块(见图 1)。对于待抽取的站点，由数据采集模块根据入口地址对其进行采集，将目标页圉雪 jfff 铉作第宙卷第。期.

10、 20009 年 5 月面采集到本地上，通过设定规则，可以保证系统只存储待分析的目标页面，对页面清洗模块的标准化提供很大方便。页面清洗模块负责对高度统一的目标页面进行清洗，最终提取出结构化文本，由数据库模块存入对应的库表字段中。数据采集模块页面清洗模块数据库模块图 1 系统结构在具体实现上，首先需要对待采集站点进行分析，确定人口地址，如论坛的版面列表地址、新闻网页的主页地址等，本文以逸仙时空. BBS 为例进行说明，入 E1地址是 ht ttp：bbssysueducnbbsalll，即所有版面列表。在数据采集模块，Hrtri 根据入口地址与自定义eix的网址筛选规则，开始对种子 URL 进行

11、分析，动态取回符合条件的目标页面文本，即论坛帖子的 html 代码，直到遍历完站点内的所有 URL，为页面清洗模块提供统一的目标页面。在页面清洗模块，由 HTMLparser和正则表达式对 Heritrix 采集下来的原始页面进行清洗，使之转换为所需的结构化文本，最终由数据库模块存入 oracle 数据表中，以供后续分析和使用。4 京姣现 I 41 数据采集模块数据采集模块主要由 Heirx 来完成。Hrtirtieirx是一个由 Java 开发的开源 Web 爬虫系统，用来获取完整的、精确的站点内容的深度复制，可通过. web 用户界面启动、监控、调整，允许弹性地定义要获取的 URL。其最出

12、色之处在于强大的可扩展性，允许开发者任意选择或扩展各个组件，实现特定的抓取逻辑，而且重新爬行对相同的 URL 不针对先前的进行替换，其默认提供的组件完全支持传统爬虫的工作。在 Heirx 架构中中央控制器 Calotolllrrti，rwCnre是核心组件，决定了整个抓取任务的开始与结束。用户在 HertieU 控制台设置抓取任务后 hrti 首irxwb!，eirx先构造. xstttnsade 对象，rwCnMLeigHnlr 然后调用 Calo. trlllr 构造一个 CaIotoe 实例并初oe 的构造函数，rwCnrlllr始化，这样 CrawlContolllrer 就具备了运行

13、条件。此时，只需调用 rqetrwSat 方法就可以启动线程池eusCaltr()和 Frnir 以便向线程池中工作线程提供抓取用的ote，URL 链接(最开始的是设置好的入口种子链接，之后. l13 是分析出来的新链接)。紧接着抓取线程工作开始，不精确的数据采集了，采集过程界面如图 3 所示：断循环通过处理器链。除非用户暂停或终止否则直到无链接可抓，控制器认为任务执行完成，将所有线程关闭。. 至(，) Heritrix 抓取流程大致如图 2 所示：. URL 的处理器，负责分配下一个被处理的 URL对抓取时一些先决条件的判断用于解析网络传输协议用于解析当前获取的服务器返回的内容用于将抓取到的

14、信息用于将解析出来的 URL 有件地加入到待处理队列中图 2 Hertiirx 工作流程在具体的站点采集中，由于站点有很多其他链接，所以经常会采集到很多其他无关的页面，这无疑会对下面的页面清洗带来麻烦，而且也降低了采集效率，因而需要针对要采集的目标页面来定义网址筛选规则，以确保不会采集到其他无关页面。具体有两种方式：一it是向 Heritrx 添加自己的 Exractor 来限制解析出来的 URL；另外也可以扩展. PostProcesssor，对进入待处理队列的 URL 进行筛选，以剔除无关的链接。下面笔者用第二种方法做个演示，对逸仙时空 IM 版的所有帖子进行采集。逸仙时空. IM 版的人

15、口地址是. htttp：b bbssysu. educnb bbsdoc?board=IM，对该版的 HTML 代码分析后可得知，每个帖子的. URL 为：，其中. Mad：I ie：M9837795765所以对. IRL 地址的筛8377A 是帖子的识别名，f选主要基于地址中的 borie 关键词。在具体代ad 和 fl码实现上，可以自己开发一个新的 PostProcesssor 类，继承 Frnirceue 父类，shdloteShdlr 然后重写父类中的. ceue ()方法，判断是否符合地址筛选规则，在此演示中，只需判断是否存在关键词即可。若考虑程序的可重用性，可把该功能类封装起来，在

16、需要对其他不同站点进行采集时，只需重新传人关键词即可。最后需要在. Heritrix 的. WebUI 中进行一些设置，制定抓取时的必要参数，然后便可以对目标站点进行114。LIBRARY AND ION SERVINFORMATICE图 3 Heritrix 抓取界面. 42 页面清洗模块所谓页面清洗，就是根据后续需求来剔除目标页面中不需要的信息内容，从而划分并提取出精确的信息块，例如论坛某张帖子的发表时间、内容、发表. IP等，这对于后续的信息分析等工作起着很重要的作用。页面清洗模块主要由 HTMLparser 来完成。HT. MLparser 是一个纯 JAVA 编写的 HTML 解析库，它不依赖于其他的 JAVA 库，主要用于改造或提取. HTML。. HTMLparser 能超高速解析. HTML，而且不易出错。对于直接用 HTMLparser 来提取网页链接并实时分析的方法，本系统的优点在于能使. HMLa

展开阅读全文