文档详情

基于nutch的企业搜索引擎的研究与实现

E****
实名认证
店铺
PDF
5.81MB
约59页
文档ID:114226498
基于nutch的企业搜索引擎的研究与实现_第1页
1/59

华中科技大学 硕士学位论文 基于Nutch的企业搜索引擎的研究与实现 姓名:陈勃 申请学位级别:硕士 专业:计算机技术 指导教师:朱建新 2011-05-26 I 华中科技大学硕士学位论文 华中科技大学硕士学位论文 摘 要 摘 要 随着信息化技术的不断发展,在现代化的企业中,企业内部的信息呈现爆炸式的增 长,这些海量的信息导致了企业内部员工在获取信息时变得越来越困难,并在一定程度 上降低了员工的工作效率,因此如何检索企业内部的信息成为了一个热门话题传统的 企业全文检索一般采用 B/S 架构,由于该架构可扩展性低,当企业数据量不断增长时, 会遇到计算能力,存储容量和网络带宽的瓶颈通过对企业实际的需求分析得出,采用 分布式的系统架构可以很好的解决该问题 通过对开源搜索引擎 Nutch 及相关技术的深入研究分析,按照分布式的处理架构设 计了一个完整的企业搜索引擎该系统针对企业内部三类数据源的特征和更新规律,定 义了三个爬虫,完成对文档,数据库,站内等数据的抓取在该系统中,系统的采集解 析模块,索引模块和检索模块均按照分布式的处理原理来进行工作采集解析模块采用 MapReduce 工作原理, 将解析后的信息存入原始数据库中, 索引模块读入原始数据库中 的信息并为其建立索引,将建好的索引存入索引库中,检索模块查找索引库中索引向用 户提交满足要求的查询结果,采集解析,索引和检索模块通过分布式文件系统 HDFS 来进行数据交互。

通过测试表明,该系统可以在分布式的情况下实现对企业内部数据的 准实时性检索,满足了实际的应用需求 关键词:关键词:Nutch,企业搜索,分布式处理,分布式爬虫 II 华中科技大学硕士学位论文 华中科技大学硕士学位论文 Abstract With the development of information technology, the information inside a modern enterprise is growing explosively. The voluminous information makes it difficult to get useful information and lowers the efficiency of employees. Therefore how to search internal information of enterprise has become a hot topic. The traditional enterprise search engine often uses the B/S architecture, because of its low scalability, when the enterprise data grows and exceeds its capacity, this architecture will meet a bottleneck of limited computing ability, storage and network bandwith. With a detailed study of open source search engine Nutch and its relevant technology, a full enterprise search engine which uses distributed processing architecture was designed. According to the features and updating law of data sources,designed three crawlers to crawl document, database and website data. In this system, the collecting, indexing, searching sub-systems all work in a distributed processing manner. The indexing module uses the MapReduce programming model to crawl data and put the analyzed data into the orginal database; the indexing module reads data from the original database and creates a index database; the search module returns the search result by searching the index database. All of the sub-systems communicate with each other by ditributed file system HDFS. Proved by test, the system has successfully completed real-time indexing of different data sources under distributed processing enviroment and achieved the intended goal. Keywords: Nutch, Enterprise Search, Distributed Processing, Distributed Crawlers 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的 研究成果。

尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人 或集体已经发表或撰写过的研究成果对本文的研究做出贡献的个人和集体,均已 在文中以明确方式标明本人完全意识到本声明的法律结果由本人承担 学位论文作者签名: 日期: 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文 本论文属于 (请在以上方框内打“√”) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日 保密□,在 年解密后适用本授权书 不保密□ 1 华中科技大学硕士学位论文 华中科技大学硕士学位论文 1 绪论 1 绪论 1.1 选题背景与意义选题背景与意义 随着网络的不断发展,网络中的信息日益丰富,人们已经从信息缺乏的时代跨入到 信息爆炸的时代根据 CNNIC 的最新报告,截至 2010 年 12 月,我国域名总数为 866 万,国内网站数为 191 万个,网页数量达到 600 亿个,年增长率 78.6%。

2010 年底中国 国际出口带宽达到 1098956.82Mbps,年增长率为 26.8%[1]同时,CNNIC 发布的《第 27 此中国互联网络发展状况统计报告》显示,2010 年 12 月,搜索引擎用户人数年增长 9319 万,年增长率为 33.1%在网民中的使用率增长了 8.6 个百分比,达到 81.9%,搜 索引擎跃升成为网民上网的第一位应用[2] 如今,搜索引擎已经成为我们日常生活必不可少的工具,像百度,google 等大型商 业搜索引擎为我们快速的获取信息提供了极大的帮助但是,由于互联网上的网页实在 是浩如烟海,即使是像 google 这样全世界最大的搜索引擎也不可能将所有的网页都索 引到因此,像 google 和百度这样的通用搜索引擎对于一个站点,通常只会索引一定 层次的网页,对于超过一定层次的网页,则没有进行索引[3] 对于企业而言,查找企业内部的信息资源通常都是很困难的因为大型通用搜索引 擎由于权限和检索策略等原因无法对企业内部的所有信息进行检索据统计,企业数据 每年以 200%的速度增长,其中 80%的数据以文件、邮件、图片等非结构化数据存放在 企业内部计算机系统中的各个角落[4]。

而且这些数据总量远远超过了互联网信息的总 量有数据表明,企业发布到互联网的信息只占到信息量的 1%~2%,而 98%以上的信 息是存储在企业内部的[5]当企业信息化基本完善,ERP,OA,CRM 都已安装了,如 何查找企业中的这些信息催生了企业搜索,它是信息管理中最好的一种方式 但是由于搜索引擎的技术门槛比较高, 开发费用高昂, 对于一般企业来说难以承担 如何降低开发成本并最大限度的满足企业用户的检索需求使得开源搜索软件 Nutch 成 为众多人研究的焦点,借助于开源软件 nutch 的帮助,用户不需要从头到尾自己开发, 只需要按照自己的需求进行配置,稍加修改即可以搭建一个自己的搜索引擎 另外,在基于 Nutch 搜索引擎的基础上,通过调整系统架构,增加一些新模块,研 2 华中科技大学硕士学位论文 华中科技大学硕士学位论文 发新的关键技术,可以满足一些新的更高层次的应用需求,例如网页自动分类系统,经 分内容搜索子系统, 互联网情报分析子系统都可以在站内搜索引擎系统的基础上添加一 些后续模块即可以实现 综上所述,研究基于 nutch 构建搜索引擎具有非常大的实际意义而且也很有必要 1.2 国内外研究现状国内外研究现状 自搜索技术于 1990 年起源以来,搜索技术主要都是侧重于互联网搜索,到了 21 世 纪,企业搜索受到了越来越多的重视,2005 年,TREC 会议新增了企业搜索项目[6],这 充分的说明了企业搜索已成为人们研究的一个热点。

企业搜索目的是为企业用户提供一个完整的信息检索平台它不同于互联网搜索引 擎,与互联网搜索引擎相比,企业搜索引擎抓取的范围比较窄,但深度比互联网搜索要 深,企业搜索抓取的数据格式和种类多样且多为非结构化数据,另外,企业搜索不像互 联网搜索对所有用户都是可见的,企业搜索有信息获取权限的要求[7] 由于企业信息化的革命导致了企业信息量的猛增,使得在未来企业搜索存在着巨大 的市场空间,正是由于看到了企业搜索巨大的应用前景,目前,很多 IT 巨头都纷纷加 入到这一领域,并推出了相应的产品,主要包括: (1) Autonomy 公司Autonomy 公司是非结构化信息处理平台提供商,占据了企业 搜索 80%的市场份额[8],它主要为用户提供安全稳定的信息检索、分析、管理、 加工等信息服务和系统构造服务,其代表产品为:IODL 和 Blinkx (2) 微软公司微软公司目前是企业搜索行业的第二名,它的企业搜索解决方案主 要有两个产品,分别是 Microsoft Office SharePoint Server 和 Search Server 2008 Express,微软通过该产品向企业用户提供完整的企业搜索解决方案。

(3) IBM 公司2007 年 6 月,IBM 发布了它的第一个企业搜索产品 OmniFind,宣 布 IBM 进军企业搜索市场,IBM 将搜索、文本分析和可视化功能全部融入到 OmniFind 中 (4) Fast 公司该公司创造了实时搜索和过滤技术方案,在后台为众多世界大型企 业解决了最为棘手的搜索难题,该公司 2008 年 1 月被微软公司收购了 除了以上几个最主要的做企业搜索的公司外,TRS,天宇,方正,龙卷风等电子政 务方面的公司,也提供一定的企业搜索解决方案;另外像 google,百度和中搜等传统互 3 华中科技大学硕士学位论文 华中科技大学硕士学位论文 联网搜索引擎公司也都推出了自己的企业搜索软件产品[9] 目前,企业搜索的市场还不是非常成熟,很多企业用户都还处在了解的阶段,且用 户对于。

下载提示
相似文档
正为您匹配相似的精品文档