垂直搜索引擎技术进展

资源描述

《垂直搜索引擎技术进展》由会员分享，可在线阅读，更多相关《垂直搜索引擎技术进展（5页珍藏版）》请在金锄头文库上搜索。

1、2011 年第 20 卷第 9 期 http:/www.c-s- 计算机系统应用 Applied Technique 应用技术 193基于Nutch的垂直搜索引擎系统李耀芳1，张涛2 1(天津城市建设学院电子与信息工程系，天津 300384) 2(南开大学信息技术科学学院，天津 300071) 摘要：由于通用搜索引擎搜索精度不高，而国内各大物流港口搜索有效性较低，设计基于 Nutch 的港口物流垂直搜索引擎系统，实现了各个港口物流信息的快捷查询和共享。系统采用了基于向量空间模型的主题相关度判别算法并对该算法进行改进，加入元数据判别机制和重要标签所包含关键词的加权处理。

2、加入“隧道处理”机制，以处理主题网页分离的问题，并且修改了检索结果排序的源代码，使其更适应垂直搜索引擎的要求。关键词：Nutch 垂直搜索；向量空间模型；索引检索 Vertical Search Engine System Based on Nutch LI Yao-Fang1, ZHANG Tao2 1(Electronic Information Engineering, Tianjin Institute of Urban Construction, Tianjin 300384, China) 2(College of Information Technical Science, N

3、ankai University, Tianjin 300071, China) Abstract: Due to the low accuracy in current general search engines, and the poor search effectiveness of lower logistics in major domestic ports, the paper designs a port logistics Nutch-based vertical search engine system which achieves fast query and logis

4、tics information sharing. The system uses a theme based on vector space model identification algorithm and the relevance of the algorithm is improved by adding identification mechanism and the importance of metadata tags that contain the keywords of the weighting. Adding “tunnel handling” mechanism

5、to deal with separation issues topic page, and modify the source code to sort search results to make it more responsive to the requirements of vertical search engines. Key words: Nutch; vertical search; vector space model; index retrieval 随着因特网的迅猛发展，网络信息资源成几何级数增长，想要快速、准确地查找所需的信息越来越难，搜索引擎整合了互联网上众多的网页

6、资源，能方便用户查找所需要的信息。但是目前通用搜索引擎在使用中面临着许多问题1，而与物流信息相关的垂直搜索引擎的检索主题相关度不高、信息更新不及时、信息量小，并且没有专门针对国内港口物流信息的搜索引擎2。因此，本文以天津港数字化口岸公共服务平台为研究对象，构建基于 Nutch 港口物流信息垂直搜索引擎，实现了港口物流信息的快捷查询和共享。系统对主题相关性判别、检索结果排序、隧道处理等问题在原有工作的基础上做了一些改进，提高了主题判别的准确度和效率，使信息的定位和查找更加的精确，减少了不相关信息的干扰，并提高了系统对于互联网复杂环境的处理能力。 1 基于Nutch的垂直搜索引擎的实现 1.1

7、系统体系结构按照搜索引擎的一般结构3，系统可以分为搜索引擎内核部分和辅助部分。系统的功能框架设计如图1 所示。按照与搜索引擎结合的紧密程度，主题管理、资源发现、检索结果显示等内容属于辅助部分；网络爬虫、网页分析、主题过滤、网页索引、网页检索等内基金项目:国家科技支撑计划(2007BAH10B01) 收稿时间:2010-12-24;收到修改稿时间:2011-02-19 计算机系统应用 http:/www.c-s- 2011 年第 20 卷第 9 期 194 应用技术 Applied Technique 容属于搜索引擎的内核部分3。图 1 本系统功能框架图该系统的体系结构

8、如图 2 所示：图 2 本系统体系结构图其中蓝色背景的模块是重点要实现或改进的部分： (1) 页面过滤模块：修改 Nutch 代码加入主题相关度判别功能，以实现对网页主题进行相关度判定和过滤。 (2) 链接过滤模块：修改 Nutch 代码加入处理“隧道现象”的功能，使爬虫可以爬取被无用页面分隔的主题页面。 (3) Nutch 检索器：修改 Nutch 代码在原有的检索结果排序的基础上加入页面主题相关性因素，使相关度高的结果优先显示给用户。下面从以下几个重要方面介绍系统构成： 1.2 起始 URL 列表的生成系统实现中采用了人工整理判定和元搜索相结合的 URL 列表生成策略。首先把

9、国内各大港口的物流栏目和资讯栏目的 URL 地址加入到 URL 列表中，然后添加通过元搜索策略收集到 URL。程序实现方面，采用 HtmlParser 完成，利用主题词，生成搜索引擎的查询词列表，通过提交列表，获得搜索引擎的检索结果页面，对页面用 HtmlParser 解析提取出其中的链接,再进行人工分析4。程序代码如下： public class MetaSearchForURL public static void TravelWordTable(String filename) throws IOException TODO:从数据库中得到主题词表，由各个主题词构造通用搜索引擎的查询

10、请求词列表 public static void getBaiduURLs(String url, String pageEncoding) throws ParserException TODO:解析百度搜索引擎返回的页面，并提取其中的 URL public static void getGoogleURLs(String url, String pageEncoding) throws ParserException TODO:解析谷歌搜索引擎返回的页面，并提取其中的 URL 最后确定的起始 URL 列表如下： http:/#天津港物流信息网 http:/#青岛港物流信息 http:/

11、#上海港 http:/#广州港 1.3 主题相关性判别在 Nutch 中的实现图 3 主题相关度判别功能图 Nutch 是基于整个互联网的搜索引擎，因此并没有主题相关性判别功能，要实现垂直搜索引擎的功2011 年第 20 卷第 9 期 http:/www.c-s- 计算机系统应用 Applied Technique 应用技术 195能需要在其基础上加以修改使其具有这项功能。在网页下载后，对网页的主题相关度进行判别，通过分析网页是否具有、等标签，判断并计算得出该网页是否与主题相关，若相关则对其建立索引，不相关则丢弃。判别计算模型采用的是向量空间模型5，其基本功能流程如图 3

12、所示。 1.4 隧道穿越的实现本文提出了优先级递减和黑名单的 URL 搜集策略来解决该问题。其功能流程如图 4 所示：图 4 实现隧道穿越的流程图在 Nutch 的网络爬虫(Crawl. java)实现中其 URL队列是一个优先级队列，这样可以通过让一个与主题无关的 URL 及其子链接的优先级逐步递减，降低其优先级而不是直接删除，从而为发现另一个主题团提供了可能，且易于实现。同时将与主题彻底无关的 URL加入黑名单中，以减少搜索范围，提高效率。 1.5 改进 Nutch 的结果排序算法 Nutch 原有的基础排序算法是 OPIC （On-line Page Importance Com

13、putation）算法5，OPIC 算法对于每个页面，存储两个值：cash 和 history 值。最初，对于网络图设置一个总的 cash 值，将此总的 cash 值平均的分配给每个页面。当进行计算时，页面的 cash 值存储页面从上次爬取时间开始获得的 cash 值之和，页面的history 值存储页面从算法的开始就获得的 cash 值之和。在计算时，不断地选取页面进行抓取。当某一页面被选取，将它的cash值分配给它所指向的那些页面，将此 cash 值加到这个页面对应的 history 值上，最后将此 cash 值重置为 0。为了估算图中每个页面的PageRank，用向量 Xt 表示在

14、算法的第 t 次迭代后： (1) 其中，Ht 是所有页面在第 t 次迭代后的 history 值得向量。由于本系统是在 Nutch 平台上开发的垂直搜索引擎，因此对网页的相关性要求更高，所以在对网页进行排序时，可以综合考虑主题相关度和链接分析两个关键因素，具体的算法实现中，应该对主题相关度和PageRank 值赋予不同的权重，则网页的重要程度值可以表示为： P = w1Sim(V,D) + w2R(u) 其中，Sim(V,D)是上述通过主题相关度模块计算出的主题相关度的大小， R(u)是利用 OPIC 算法计算出的可用用于页面排序的网页 PageRank 值，w1 为主题相关度的权重，w2 为

15、 R(u)的权重，二者的取值可以根据实验需求选定，必须保证 w1 + w2 = 1。本算法拟定 w1取 0.6，w2 取 0.4。改进的算法将主题相关度和链接分析相结合，提高了排序结果的质量，可以对于各个因素设置权重系数，有利于灵活调整各种因素对页面优先度得分的影响程度。经过经验数据分析和人工调整，可以将搜索系统性能调整到最佳状态。 2 系统运行和测试结果 2.1 系统运行步骤初次运行时需要首先确定与本领域相关的主题词和起始 URL 列表，然后将其加入系统的配置文件中，运行流程如图 5 所示：图 5 本系统运行步骤 1tt tHHX =计算机系统应用 http:/www.c-s- 2011 年第 20 卷第 9 期 196 应用技术 Applied Technique 以下是实际运行时的界面： (1) 主题词和起始 URL 配置界面如图 6 所示：图 6 本系统配置工具在“主题词管理”栏可以添加、修改主题词和权重，也可以删除主题词；在“起始 URL 管理”栏可以打开起始 URL 文件，在其中添加或者删除起始 URL；在“运行管理”

展开阅读全文