互联网网页文本对象抽取实现技术本科毕业论文

资源描述

《互联网网页文本对象抽取实现技术本科毕业论文》由会员分享，可在线阅读，更多相关《互联网网页文本对象抽取实现技术本科毕业论文（45页珍藏版）》请在金锄头文库上搜索。

1、湖南大学毕业论文第 V 页互联网网页文本对象抽取实现技术摘要互联网中蕴含着大量的关于现实世界对象的结构化信息。为了能应对信息爆炸带来的严重挑战，抽取、集成网页上各式各样的文本对象信息，进行对象级别的搜索，迫切需要一些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息。网页文本对象抽取实现技术正是解决这个问题的一种方法。本文以传统的信息抽取理论和方法为基础，针对目前热门的博客领域，提出了一种基于HTML特征和机器学习的博客正文抽取算法。在该算法中，研究了博客网页的特征，提出了一种基于HTML标签特征的网页分块算法，使用决策树算法对博客数据集进行统计训练，采用专门的统计工具WEKA对

2、该算法进行了测试和评估，并总结出该算法的优点以及可以改进的地方。最后，展示了基于该博客正文抽取算法的博客搜索引擎Geeseek的系统结构和界面演示。该系统属于新型的垂直搜索引擎，能够对博客和博文进行快速有效的搜索。据了解，Geeseek也是目前国内高校中第一个博客搜索引擎。关键词：互联网，信息爆炸，信息抽取，博客，HTML，机器学习，决策树，搜索引擎，Geeseek Implementation of text object extraction for Internet web pages Author: Zhang Hui Tutor: Lin YapingAbstractNowadays

3、, there is a large number of semi-structural information which represents objects in the real world on the Internet. In order to deal with the severe challenge brought by information explosion, extract and integrate all kinds of text object information on web pages, and put up the object-level searc

4、hing, it cries for the automated technologies to help people find the very information they really need among such a large number of information. The technology of text object extraction is just one of methods to solve this problem.Based on the traditional theory of Information Extraction and aiming

5、 at the blog domain, this paper puts forward an arithmetic implementing the extraction function for the text objects of blog articles with the HTML features and machine learning. In this arithmetic, it analyses the features of blog pages, introduces an arithmetic for web page partition basing on the

6、 HTML tag features, uses decision tree to do statistics and training on the blog data set, tests and evaluates this arithmetic using the expert statistical tool, WEKA, and summarizes the advantages as well as the points needing improving. Finally, it shows the system architecture and interface prese

7、ntation of the Geeseek, a blog Search Engine which applies the technology of text object extraction for blog pages. This system blongs to the new-style vertical Search Engine and is able to search for the blog home pages and blog article pages quickly and effectively. So far as we know, Geeseek is t

8、he first blog Search Engine in all the colleges in China.Key words: Internet, information explosion, Information Extraction, blog, HTML, machine learning, Search Engine, decision tree , Geeseek毕业设计（论文）原创性声明和使用授权说明原创性声明本人郑重承诺：所呈交的毕业设计（论文），是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知，除文中特别加以标注和致谢的地方外，不包含其他人或组织已经发表

9、或公布过的研究成果，也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体，均已在文中作了明确的说明并表示了谢意。作者签名：日期：指导教师签名：日期：使用授权说明本人完全了解大学关于收集、保存、使用毕业设计（论文）的规定，即：按照学校要求提交毕业设计（论文）的印刷本和电子版本；学校有权保存毕业设计（论文）的印刷本和电子版，并提供目录检索与阅览服务；学校可以采用影印、缩印、数字化或其它复制手段保存论文；在不以赢利为目的前提下，学校可以公布论文的部分或全部内容。作者签名：日期：学位论文原创性声明本人郑重声明：所呈交的论文是本人

10、在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名：日期：年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名：日期：年

11、月日导师签名：日期：年月日目录1. 绪论11.1 课题背景及目的11.2 国内外研究状况31.2.1 国内研究现状31.2.2 国外研究现状41.3 课题研究方法51.4 论文构成及研究内容52. WEB信息抽取及网页文本对象抽取概述72.1 Web信息抽取的概念72.2 Web信息抽取的方法82.3 Web信息抽取的典型流程92.4网页文本对象抽取的理论和方法113. 博客正文信息抽取系统的设计143.1 博客搜索的概况143.2 博客正文抽取的过程153.2.1 分类153.2.2 分块183.2.3 统计训练，获取决策树213.3 算法的测试和评估243.4 博客正文抽取算

12、法的意义和思考254. 基于博客正文抽取的GEESEEK搜索引擎274.1 Geeseek系统介绍274.2博客正文抽取模块284.2.1 博客正文抽取模块简介284.2.2 博客正文抽取模块的主要数据类294.2.3 博客正文抽取模块的实现思路304.3系统展示335. 总结36致谢37参考文献39湖南大学软件学院1. 绪论本章介绍了课题的背景和研究现状，并对全文的内容和结构作了概括。1.1 课题背景及目的为了应对信息爆炸带来的挑战，迫切需要一些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息。信息抽取( Information Extraction, IE)正是解决这个问题的一

13、种方法。信息抽取技术是指从一段文本中抽取指定的事件、事实等信息，形成结构化的数据并存入一个数据库，供用户查询和使用的过程。也就是从文本中抽取用户感兴趣的事件、实体和关系，被抽取出来的信息以结构化的形式描述，然后存储在数据库中，为情报分析和检测、比价购物、自动文摘、文本分类等各种应用提供服务。广义上信息抽取技术的抽取对象并不局限于文本，其他形式存在的信息也可以作为信息抽取的对象，而抽取的结果则变为相应的结构化数据。广义上信息抽取的过程如图1.1所示。图1.1 信息抽取示意图1从自然语言文本中获取结构化信息的研究最早开始于20世纪60年代中期，这被看作是信息抽取技术的初始研究，它以两个长期的、研究

14、性的自然语言处理项目为代表。美国纽约大学开展的Linguistic String项目开始于60年代中期并一直延续到80年代。该项目的主要研究内容是建立一个大规模的英语计算语法，与之相关的应用是从医疗领域的X光报告和医院出院记录中抽取信息格式（Information Formats），这种信息格式实际上就是现在所说的模板（Templates）。另一个相关的长期项目是由耶鲁大学Roger Schank及其同事在20世纪70年代开展的有关故事理解的研究。由他的学生Gerald De Jong设计实现的FRUMP系统是根据故事脚本理论建立的一个信息抽取系统。该系统从新闻报道中抽取信息，内容涉及地震、工人罢工等很多领域或场景。该系统采用了期望驱动（top-down，脚本）与数据驱动（bottom-up，输入文本）相结合的处理方法。这种方法被后来的许多信息抽取系统采用。从20世纪80年代末开始，信息抽取研究蓬勃开展起来，这主要得益于消息理解系列会议（MUC，Message Understanding Conference）的召开。正是MUC系列会议使信息抽取发展成为自然语言处理领域一个重要分支，并一直推动这一领域的研究向前发展。2 目前，随着对信息抽取技术的不断发展，各种抽取系统也层出不穷。当前的发展趋势在慢慢

展开阅读全文

互联网网页文本对象抽取实现技术本科毕业论文

最新文档