本科毕业论文大规模网页模块识别与信息提取系统设计与实现

资源描述

《本科毕业论文大规模网页模块识别与信息提取系统设计与实现》由会员分享，可在线阅读，更多相关《本科毕业论文大规模网页模块识别与信息提取系统设计与实现（44页珍藏版）》请在金锄头文库上搜索。

1、00448174 朱磊本科毕业论文本科生毕业论文题目：(中文) 大规模网页模块识别与信息提取系统设计与实现 (英文) Design and Implementation of Large Scale Web Template Detection and Information Extraction System姓名：朱磊学号：00448174 院系：计算机系专业：搜索引擎与互联网信息挖掘指导教师：闫宏飞二一一年十二月七日二八年六月六日2摘要本文在已有的基于Dom-Tree和启发式规则的网页信息提取算法的基础上，通过为所有符合W3C规范的Html标签分类，逐个分析各Htm

2、l标签所包含的语义信息，细化规则设置，实现了一种自底向上的无信息遗漏的网页分块算法，并在此基础上，利用统计方法得到详细的概率分布数据，实现了文本相似度比较和Bayes后验概率估计两种网页主题内容信息块识别算法，并将其求交，提高了主题内容信息块的识别精确度。上述算法已集成到天网搜索引擎平台的网页预处理模块中，并且在SEWM 2008会议中，以这套算法为框架，组织了主题型网页识别和网页主题内容信息块提取两个中文Web信息检索评测项目。在这套算法的基础上，基于天网文件系统与Map-Reduce计算平台，实现了分布式的网页块级别PageRank算法，命名为QuarkRank算法。实际检验表明，该套算法

3、具有很好的适应性与可扩展性，并达到了很高的精度和召回率。关键词：网页分块信息提取 SEWM 评测 PageRankAbstractThis paper has been based on the Dom-Tree and heuristic rules of the Web information extraction method, by classifying all the Html tags in line with W3C standards, and by analyzing semantic information contained in the Html tags one

4、by one, it refines the rules set and achieves a bottom-up page block algorithm without information missing. On this basis, with the probability distribution of data getting from statistical methods, this paper realizes two algorithms of information block recognition, one is text similarity compariso

5、n and the other is Bayes posterior probability estimates, and the final result comes from their intersection, which improves the accuracy of information theme block recognition.These algorithms have been integrated into the page pretreatment module of TianWang search engine platform, and in SEWM 200

6、8 meeting, using these algorithms, we organized two Chinese Web Information Retrieval Evaluation Project,Which two are theme-based Web page identification and block extraction of the information theme content.In this method, based on TianWang file system and the Map-Reduce computing platform, this p

7、aper reports the distributed block-level PageRank algorithm, named QuarkRank algorithm here. The actual test showed that these algorithms are good at adaptability and scalability, and reach a very high precision and recall.Keywords: Web-Page Blocking, SEWM, Information Extraction, Evaluation , PageR

8、ank目录第 1 章序言3第 2 章相关研究工作52.1基于语义的网页信息提取算法52.2基于视觉的网页分块算法62.3Block Level PageRank算法82.3.1Block Level Web Graph82.3.2Block Level PageRank10第 3 章天网搜索引擎Quark模块113.1网页分块算法133.2网页主题内容提取163.3算法效果演示18第 4 章SEWM2008中文Web信息检索评测234.1评测任务介绍234.1.1主题型网页发现任务234.1.2网页内容信息发现任务244.2评测格式254.3评测结果254.3.1主题型网页发现任务评测结果26

9、4.3.2网页内容信息发现任务评测结果284.4评测综述31第 5 章网页分块的分布式应用325.1QuarkRank325.2其他应用34第 6 章总结与展望356.1总结356.2展望36第 1 章序言信息时代，非Web无以制胜。互联网的高速发展，改变了我们的生活方式，打破了我们的时空界限，重塑着我们的社会形态。经济、政治、学习、工作、生活、娱乐等等各个层面都在Web网络中激荡起伏，深刻地影响着人类的未来。而Web网络的灵魂，就是流动在其中的无穷无尽的信息。Web2.0的意义就在于网络内容的提供方从商人和专业人员转变为网络上的每一个普通用户，从而几何级数地增长了Web的信息量。然而信息量

10、的增大，随着而来的就是存储成本的增大和信息提取难度的增大，如何有效的获取和整合Web信息成为大家面对的共同课题。传统意义上，整个Web网络就是由无数的Web页面而构成，它们是网络信息存储和提取的基本单位，获取了这些Web页面就相当于获取了Web信息内容。但是把整个页面作为最基本的信息处理单位有一些不合理之处。首先是因为Web页面中信息量的分布非常不均匀，有主题内容，也有广告，导航栏，版权信息，装饰信息，以及在大量网页中重复出现的部分，它们自身的信息含量千差万别。当网页浏览者刚打开一个新页面的时候，如果之前没有浏览过类似页面，就会目不暇接，眼花缭乱，有无所适从的感觉，必须仔细探寻一番才能定位到这

11、个页面的要害；如果之前浏览过类似页面，比如常上这个网站，那么通常浏览者就已经训练出一种直觉或者说是条件反射，他会立刻定位到他所想要浏览的部分，从而忽略掉页面中的其他部分。其次还因为现在很多Web页面是动态更新的，比如博客页面或者论坛讨论帖，它们的更新是以一个一个网页块的形式进行的，更新时页面上大部分内容并没有变化，如果仍然以整个页面为处理单位，则不可避免地存在效率损失和定义的混淆。这些情况促使我们反思以整个页面为基本信息单元的做法不仅不尽合理，一定程度上甚至已经损害了网络浏览者的用户体验，妨碍了网络信息提取的效率。解决这个问题的办法其实有两种思路。第一种就是从信息的产生方那儿就不再提供网页式的

12、信息，而改为直接提供网页块或者文字段式的信息。最常见的例子就是RSS（聚合内容，Really Simple Syndication），博客或者新闻的提供方省去了浏览者访问网站查看更新的麻烦，直接将精简后的网页块或者文字段发送给RSS的订阅方。第二种则更为普适，就是细分网页中的信息单元，也就是给网页分块，在网页分块的基础上存储和提取Web页面的语义信息。基于网页分块的Web页面的语义信息提取在很多方面都有应用。比如，在常规搜索引擎中，可以以网页分块为基础去除网页中的噪音信息，识别出网页中的主题内容信息块，从而用提取出的主题内容信息来构建对这个页面的描述，完成网页分类、网页消重等应用。还可以凭此改

13、进搜索引擎的索引模块和检索模块的效率，比如改进TF/IDF和PageRank的算法（详见第五章）。 Web页面的语义分块另外一个重要用途在于移动终端访问互联网，比如手机和IPod等。因为目前大部分的Web页面都是针对PC机设计的，要求有相对较大的屏幕。而移动设备通常屏幕较小，计算能力有限，无法直接访问这些页面。为了解决这个问题，要么是内容提供商手工编辑专门适用于移动设备的页面，要么就只有对页面进行语义分割，并在分割后的页面中选择信息量最高的语义块。除此之外，Web页面的语义分块还可能对常规搜索引擎之外的其他信息检索系统有帮助。比如类似于新闻人物追踪和历史新闻检索等应用，出于节约存储空间，提高检

14、索精度，方便更新等目的，可以直接存储和操作网页中的主题内容语义块，而舍弃网页中其他与系统需求无关的语义块。在这篇论文中，第二章介绍了本文的相关研究工作，包括常见的网页分块和信息提取算法、基于视觉的网页分块算法，以及网页分块的一个应用Block Level PageRank算法；第三章介绍了我实现的网页分块和主题信息提取算法Quark算法；第四章介绍了Quark算法在SEWM2008中文Web信息检索评测项目中的实际检验；第五章介绍了在Quark算法基础上实现的一个分布式QuarkRank程序。第六章是对本文的总结和工作展望。第 2 章相关研究工作2.1 基于语义的网页信息提取算法由于对Web

15、页面有效分块之后可以极大地方便内容提取、数据挖掘、Web结构分析等各项Web信息检索领域的相关工作，所以早有很多研究人员前赴后继，就此展开了很多工作。其中，基于语义信息对网页分块是最简便，也最基础的一种方法。所谓语义信息，通常包括网页中包含的HTML标签信息，HTML DOM树的结构信息，文字内容信息，超链接信息，以及其他通过统计或学习而得到的全局信息等等，也可以理解成为除了网页中的视觉信息之外的所有可以得到的信息。通常基于语义的网页分块算法是和后续的网页主题内容提取结合在一起的，也就是在网页分块的过程中，同时完成了主题内容提取的工作，并且主要的注意点是在主题内容提取上，因此分块算法就比较简单，甚至不显式地分块，在此我们统称它们为网页信息提取算法。总的来说，网页信息提取算法可以分为两类，一类属于网站级别（Site-Level），一类属于网页级别（Page-Level），当然也有将两类方法结合使用的算法。Site-Level的算法顾名思义，就是分析一个网站或者网页集内部的所有网页，从中提取

展开阅读全文