基于webharvest的中文财经新闻搜索引擎的设计与实现

资源描述

《基于webharvest的中文财经新闻搜索引擎的设计与实现》由会员分享，可在线阅读，更多相关《基于webharvest的中文财经新闻搜索引擎的设计与实现（54页珍藏版）》请在金锄头文库上搜索。

1、华中科技大学硕士学位论文基于WebHarvest的中文财经新闻搜索引擎的设计与实现姓名：隋玉航申请学位级别：硕士专业：软件工程指导教师：薛志东 2011-01-11 I 华中科技大学硕士学位论文摘要随着互联网的迅速发展，其所承载的信息量呈爆炸式增长，因此，如何有效地利用这些丰富的信息资源逐渐成为研究人员关注的课题。搜索引擎在当今互联网领域起着十分重要的作用，它是获取知识信息的主要工具。同时，随着用户需求的进一步扩大，获取更加准确、更加深层的专业信息，成为搜索引擎的一项新要求。针对目前新的需求变化，本文提出了一个基于 webharvet的中文新闻搜

2、索引擎。首先详细介绍了搜索引擎的系统结构，然后从网络爬虫、索引引擎、Web 服务器以及其中涉及到的一些算法进行详细的说明。并在此基础上，开发了一个基于 webharvet 的中文新闻搜索引擎。简而言之，新闻搜索引擎是按照初始的 URL列表到指定的 Web 页面中进行页面解析，并把解析到的新闻创建建索引后存入到数据库.用户在客户端访问 web 服务器上的索引并取出数据库中相应的新闻信息。除了常见的搜索引擎相关组件之外，系统设计了一个并发网络爬虫，在考虑到性能需求的同时兼顾了新闻数据抓取的精确度，并在此基础上添加了过滤，文本去重，持久化等一系列组件。在构建爬虫相关组件中采用了许多成

3、熟的设计模式来进行各个模块的整合和功能优化。而索引部分采用了 Lunece 构建索引，通过 IKanalyzer 进行中文分词和词法分析，并针对不断更新的数据进行索引的合并和优化。另外，结合用户需求，添加了用户评分和权限等相关操作，主要目的是为开发一个面向用户的体验良好的中文新闻搜索引擎。在介绍搜索引擎的章节中，详细地描述了相关技术点，同时列出了构建该系统的相关代码和逻辑图表。关键词：搜索引擎网络爬虫中文分词 II 华中科技大学硕士学位论文 Abstract With the explosive growth of Internet information

4、，the amount of information is exploding quickly, how to make full use of these informations become a topic which need to be studied.Search engine has been the key to open up the knowledge and the tool to acquire the knowledge. Therefore, how to obtain more accurate and professional information becom

5、e the new requirements of search engine. In order to meet the new demands, this paper proposes a Chinese- language news search engine based on webharvet. Firstly, this paper introduces the architecture of search engine brifly, then introduce web crawler, indexing engine, Web server, and others invol

6、ves some algorithms in detail.And based on these, I develop a Chinese- language news search engine based on webharvet. The news search engine is parsed according to hyperlink from an appointed web page, then indexes every searched news and store into database. The user in client can receive the righ

7、t news by accessing the index located in web server.Besides the common components related about search engine, the system designd a concurrent web crawler and based on this added a series of components like condition filter, text deletion, and persister. In the procedure of building crawler, many ma

8、ture design patterns have been integrated into the functionality of each module. The index module based on the Lucene indexing use IKAnalyzer to process Chinese word segmentation and lexical analysis and update index by merging index. In addition, combining with the user s requirements, the Chinese

9、news search engine adds operation about socre and authority to realize the functionality of gooduser experience. In the chapter of introducing search engine, it not only presents the core of technology in detail, but also introduces the modern code, logic pictures. Key words：Search engine Web spider

10、 Chinese word segmentation 1 华中科技大学硕士学位论文 1 绪论随着计算机技术、网络技术日新月异的发展，整个世界已进入网络化时代，网络给人们的生活带来了很大的便利，人们也逐渐在从传统的新闻阅读向网络方向转变，文中构建了一个针对财经新闻抓取的垂直搜索引擎，旨在为用户提供一个阅读财经新闻的公共服务平台。 1.1 系统开发背景互联网是一个潜在的，巨大的知识库。它拥有的 web 页面已经从最初的几千个发展到至今的上万亿个。伴随着互联网资源的日益增长，人们已经慢慢适应了从网络中获取自己的信息，尤其是一些投资者会经常关注一些金融新闻。由于国内

11、的财经新闻门户网站很多，涉及的方面也很多，用户长期在各个不同财经网站之间进行穿梭会感觉比较麻烦。不同于百度，谷歌等通用的中文新闻搜索引擎，用户希望把领域专注在财经方面，在兼顾性能的同时更希望得到的是新闻的精准，基于此点，针对财经领域的中文新闻搜索引擎便应运而生。 1.2 系统开发目的本系统主要目标是为广大用户提供一个公共的财经新闻阅读平台，通过网络爬虫抓取 Web 上的目标数据，并提供关键字检索和日期查询来节省用户的时间，以提高用户阅读新闻的效率。 1.3 系统国内外现状研究现在百度，谷歌，雅虎等搜索引擎都提供了中文新闻搜索功能，并且在通用的网页正文提取以及其他算法研究和应用

12、上都得到了极大地优化，然而，通过分析各种中文搜索工具之后，开发人员发现由于搜索工具设计上存在的局限性以及中文编码的特殊性1,2，目前的中文搜索引擎在仍存在各种各样的不足之处，主要有以下几种： 2 华中科技大学硕士学位论文（1）搜集范围小、数据量少；（2）搜集能力弱，目标数据太少；（3）不支持一些特殊的中文编码类型，从而使搜索到的数据不齐全、不完整，进而造成查准率很低；（4）对需要 Cookie 数据的网页和 Flash等特殊网页的采集缺乏自辨别和处理能力3, 4；（5）搜索的返回结果缺少一种相关性排序和超链接分析1, 5，给用户增加了检索负担。（

13、6）缺少高效的索引。哪些字段需要存储，哪些字段需要索引，合并索引等等。创建的索引是否高效直接决定了后期查询索引的效率。（7）缺乏通用的网页正文提取算法。构建通用搜索引擎，那么针对大量的不同 URL 必然需要设计一个通用的网页正文提取的模板，算法的优劣直接决定了提取的目标数据的精确度。（8）网页去重算法的性能瓶颈。对于抓取的大量的信息，尤其是文本信息，存在大量重复的信息，网页去重保证了抓取的数据冗余度小，这其中涉及到了文本匹配的一些算法，算法的好坏对后续索引部分产生直接的性能影响。除了上述几点，还有其他的一些不足之处，比如频繁访问被拒绝，对文档的检索能力比较弱等等，这都是相关开发

14、人员需要努力的方向。从根本上来说，这是由于搜索引擎缺乏一种自主的理解能力和处理能力，对目标关键字只是简单地机械地作字符匹配来实现6。由此观之，借鉴一些新的技术方法来优化中文搜索引擎的设计，是势在必行的。 1.4 论文的主要研究工作在此开发的中文新闻搜索引擎，旨在探索一种新的开发方式，通过这种方式，保证抓取新闻的精准和定时更新，借助这个平台用户可以极大地提高阅读新闻的效率。 3 华中科技大学硕士学位论文系统里在构建了一个基于 WebHarvest的并发采集器7, 8，借助 Xpath和正则表达式进行目标数据的原始提取，后续过程中需要完成了条件过滤，文本去重

15、，持久化等数据解析处理，其中，文本去重组件采用的是基于特征码的网页去重算法，查准率和召回率都比较高。索引部分采用了 IKanalyzer 完成中文分词和词法分析。此外，为增加用户体验，在前端开发主要使用 Ajax和 Json两种数据传递方式。整个系统架构采用基于 B/S 的 MVC 模式进行分层设计，并将一些成熟的设计模式如 Facade，Delegate，Singleton等渗透到不同的模块中，极大的提高了开发效率。论文的详细结构为以下：首先概要分析了现有中文新闻搜索引擎的现状，也提出了现在存在的一些问题和不足之处，并基于此点提出该系统的开发目标和意义。再对相关关键技术和算

16、法作了详细的介绍和分析。首先介绍了 Web- harvest 的目标、出发点和功能结构；然后对 SSH 框架及其中核心的接口作了详尽的介绍；最后，介绍了系统中用到的基于特征码的网页去重算法。然后对系统主要功能模块的设计作了介绍。并在前面几个章节的基础上对系统进行详细的功能设计。然后介绍了系统主要功能模块的实现。在前面几章的基础上对系统做了技术上的实现。紧接着介绍了系统的功能测试，采用了黑盒测试的方法。最后对本文的研究工作进行了总结和展望，并提出了本系统需要优化的一些问题。 4 华中科技大学硕士学位论文 2 相关关键技术和算法分析此系统是基于互联网，采用 B/S 模式进行系统架构，在设计与实现的过程中使用了相关的技术和算法，下面就对这些技术和算法进行介绍与分析。 2.1 Web- Harvest Web- Harvest 是采用 Java 语言编写的开源的 Web 数据提取工具。它提供了从目标 Web 页面上提取目标数据的功能。基于这个目的， XSLT,XQuery,和正则表达式等操作 text/xml 的相关

展开阅读全文