基于视觉特征的网页信息提取

资源描述

《基于视觉特征的网页信息提取》由会员分享，可在线阅读，更多相关《基于视觉特征的网页信息提取（8页珍藏版）》请在金锄头文库上搜索。

1、基于视觉特征的网页信息提取* 吴倩，杨逍，张兆心哈尔滨工业大学(威海)计算机科学与技术学院，威海，264209 E-mail: 摘要：在互联网技术高速发展的时代，Web 成为全球最大的信息数据库，如何有效管理、利用 Web 信息是当前的热点问题，本文主要探讨了 Web 网页信息提取问题。传统的网页信息提取主要基于 DOM 树及HTML 标签分析，文中在基于网页视觉特征分块算法 VIPS 基础上，通过归纳 Web 网页视觉特征及视觉块特征信息，提出了基于视觉块的定位算法的 Web 页面信息提取方法。分别将主题型网页和 BBS 型网页作为 VIPS 算法的输入，分析 VIPS 算法输出

2、的视觉分块树中视觉分块，定义纯文本密度和链接文本密度等视觉特征量，提出了视觉块定位算法 VBPA，定位主题信息块到 VBT 中的某一个节点，进而提取主题信息。实验结果表明，基于视觉特征的视觉块定位算法要优于传统网页信息提取算法，可以得到较高的信息提取质量。关键词：VIPS；视觉块定位；VBPA；主题内容提取；BBS 信息提取。 Web information extraction based on visual characteris tics WU Qian, YANG Xiao, ZHANG Zhao-xin School of Computer Science and Technolo

3、gy Harbin Institute of Technology (Weihai), Weihai 264209 E-mail: Abstract: In the age of rapid development of Internet technology, Web is becoming the worlds largest database of information, how to effectively manage the use of Web information is currently a hot issue. This paper discusses the iss

4、ue of Web information extraction. Traditional web information extraction is mainly based on DOM tree and HTML tag analysis. Based on VIPS, the paper is proposed visual block positioning algorithm for Web page information extraction through induction Web page visual features and visual pieces feature

5、 information. The theme-based web-site and BBS web-site input as VIPS, analysis the output of VIPS and the visual block tree and define visual characteristics such as text density and link text density. The paper put forward a visual block positioning algorithm VBPA. It will be the theme of location

6、 information to a node VBT, and then to extract theme information. Experimental results show that the visual features of the visual block positioning algorithm are superior to the traditional web information extraction algorithm and can be a higher quality of information extraction. Keywords: VIPS；V

7、isual pieces positioning；VBPA；Subject extraction；BBS information extraction 1 引言随着计算机的普及和互联网的迅猛发展，Internet 上的信息资源正以惊人的速度增长，*作者简介：吴倩(1988-)，女，安徽淮南人，本科生；杨逍(1990-)，男，河南周口人，本科生；张兆心(1979-)，男，黑龙江哈尔滨人，博士，副教授，主要研究方向为网络安全。基金项目：网络危机响应系统关键技术研究(2007242A47)、哈尔滨工业大学校级科技立项(20090704011)。 16Web 已经成为这世界上最大的信息来源，在

8、 Web 上检索信息已成为了一项重要的任务。网页具有丰富的内容表现与互动的特性，这些特性决定了网页从视觉表现形式上传达着信息1。视觉识别的重要特征是在网页上特殊信息，视觉特征在发现和提取网页信息时十分重要。本文从人们浏览网页的角度出发，利用网页在显示时所表现出的视觉信息及布局特征，采用 VIPS 算法2对网页进行视觉分块处理，在视觉块的基础上根据视觉特征分析有效地定位到价值信息块，再进一步提取出 Web 页面的价值信息。 2 相关工作提取网页信息的方法主要是基于分析网页的 HTML 源文件，解析成语法树。一些研究者试图利用数据库技术为网页制作一个包装器（Wapper），若一个网页

9、可以分为语义相关的几部分，包装器就可以很容易地匹配数据并提取数据2。现有的 web 信息抽取技术按其包装器工作原理不同可分为以下几类3：(1)基于自然语言处理方式的信息抽取；(2)基于归纳学习的信息抽取；(3)基于自定义查询语言的信息抽取，典型代表有 A.saguhuet 等人研制的信息抽取器制造工具 W4F4。也有研究者分析了网页的布局结构，并尝试在语义层次划分的页面，提取网页内容信息。近年来网页信息自动抽取研究取得很多成果5，但是大多数方法主要依靠分析 HTML 的语法结构，虽然取得了不错的效果，但也存在很大的局限性，其中最大的局限性就是拓展性较低。文献6提出了基于视觉

10、特征的网页信息标题抽取方法，达到了较高的正确率。但是，其抽取数据量较少，无法满足提取网页主题信息的要求。目前，涉及网页视觉特征的研究成果也有很多7，这些研究试图将网页信息提取与网页物理结构分离开来，取得了一定的成果，但总体上仍处在发展阶段。文献2 提出了一种自动自上而下独立标签树的方法来检测网站的内容结构，在模拟用户如何理解网页布局结构的基础上，方法独立于 HTML 文件，即使 HTML 的结构和布局结构不同，也有较高正确率，适合于对 Web 页面进行精确分块，但无法自动定位主题信息区域。文献3 针对 BBS 网页自动抽取用户发言信息，提出基于 BBS 主题网页内用户发言信息的视

11、觉特征的有效抽取信息技术，但是算法整体过于复杂，效率不符合提取的实时性需求。文献8提出了利用 TABLE 标记和视觉特征对页面进行视觉块划分，并识别视觉块属性的算法 TVPS，该算法中对分块方法只从 TABLE 标记进行考虑，但是实际中网页正文信息不完全在 TABLE 标记中。如果只考虑网页的 TABLE 标记，可能会造成正文信息的缺失。本文通过观察和统计网页中不同类型主题区域与价值信息区域的在视觉上的特征表现，同时对这些特征进行共性发掘与统计分析，提出了基于视觉特征的网页价值信息区域视觉块定位算法：VBPA(Visual Block Positioning Algorithm），

12、在此基础上可以准确的完成对所需网页信息的提取工作，取得了较好的效果。 3 网页视觉分块算法首先，使用 VIPS 算法对网页进行视觉分块，VIPS(Vision-based Page Segmentation)算法2是由微软亚洲研究院提出的，该算法是基于网页视觉内容结构信息，结合 DOM 树而得到的。简单的说就是把网页分割成一块一块的，比如整个页面的页眉是一块，中间是一块，页脚是一块，在每一个块中又根据内容和特征分成更多、更细的小块，整个过程是一个自顶向下的迭代过程。算法的最后还要把太小的块根据语义规则进行语义块重构，最终建立17一个基于 Web 网页的视觉分块树 VBT。本文使

13、用 VIPS 算法参考文献2，首先将一个 Web 页面作为 VIPS 算法的输入，通过算法解析 Web 页面得到一个抽象的结构，视觉分块树（Visuanl Block Tree,VBT）3。与 DOM 树不同，VBT 具有以下特征：特征一：VBT 中节点与视觉分块是等价的；特征二：VBT 中的每一个节点对应一个矩形的视觉区域（如文本、图片、链接等）；特征三： VBT 上具有父子关系的节点，在网页中对应的矩形区域在几何上是包含关系。但文献2仅仅提供了一种基于视觉特征的网页分块算法，得到网页的视觉分块集合，但是没有给出如何根据视觉特征进行网页信息提取的方法，本文的工作基于其 VIP

14、S 算法的基础上，提出利用已得视觉块的视觉特征进行网页信息提取的算法。 4 视觉块定位算法(VBPA)与网页信息提取在对网页使用 VIPS 算法进行视觉分块后，通过提出视觉块定位算法：VBPA（Visual Block Positioning Algorithm）来对网页信息区域块进行定位和提取工作。 4.1 视觉块视觉块 B 的特征值的特征值对于第 2 节中得到的 VBT 中的每个视觉块 B，记录它在网页中的位置信息、大小信息、文字特征信息以及图片信息等。设定网页的左上角顶点为坐标原点，网页的右下角顶点坐标为(Width，Height)，其中 Width 和 Height 为经

15、过 VIPS 算法得到的每个视觉块的宽度和高度，每个页面块的中心点坐标为(CenterX，CenterY)。通过 VIPS 算法可以得到每个视觉块 B 到当前页面上边界的距离_B top，到左边界的距离_B lef，B 的横向中轴线的位置_0.5LlandBtopHeight，纵向中轴线位置_0.5LprotraitB leftWidth。根据记录的这些信息，对每一个视觉块 B 做出如下定义。定义 1：B 的横向中轴线与 B 的父节点块的横向中轴线之间的距离_L landLfland，其中_Lfland为 B 的父节点块的横向中轴线的位置。定义 2：B 的纵向中轴线与 B 的父节点块的

16、中轴线之间的距离_LprotraitLfprotrait，其中_Lfprotrait为 B 的父节点块的纵向中轴线的位置。定义 3：语义块 B 的面积_SB与 Web 页面的面积_Spage之比为_ _SB Spage。定义 4：B 的纯文本密度_text是视觉块中纯文本的长度与视觉块的面积之比为_L textlengthtextSB，其中_L textlength是视觉块中纯文本的长度。定义 5：B 的链接文本的密度_link为视觉块中链接文本的长度与视觉块的面积之比为_L linklengthlinkSB，其中，_L linklength是视觉块中链接文本的长度。 4.2 VBPA 在主题型网页主题内容定位提取在主题型网页主题内容定位提取主题型网页指的是 Web 中如新闻、博客、个人空间等类型的具有明确主题信息区域的网页，需要正确定位和提取网页主题内容

展开阅读全文