面向行业搜索引擎的研究与实现

上传人:E**** 文档编号:117262609 上传时间:2019-12-05 格式:PDF 页数:57 大小:2.69MB
返回 下载 相关 举报
面向行业搜索引擎的研究与实现_第1页
第1页 / 共57页
面向行业搜索引擎的研究与实现_第2页
第2页 / 共57页
面向行业搜索引擎的研究与实现_第3页
第3页 / 共57页
面向行业搜索引擎的研究与实现_第4页
第4页 / 共57页
面向行业搜索引擎的研究与实现_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《面向行业搜索引擎的研究与实现》由会员分享,可在线阅读,更多相关《面向行业搜索引擎的研究与实现(57页珍藏版)》请在金锄头文库上搜索。

1、华中科技大学 硕士学位论文 面向行业搜索引擎的研究与实现 姓名:吴瑞诚 申请学位级别:硕士 专业:通信与信息系统 指导教师:谭运猛 2011-01-15 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 I 摘 要 面对“数据爆炸,信息匮乏”的互联网,主流商业搜索引擎可以满足普通用户 的检索请求,可是在搜索特定行业领域信息时,主流搜索引擎则不能满足这方面的 需求,主要表现在:有效文档覆盖率不高,返回结果噪声信息量比例大,查准率较 低,本文设计实现的面向行业搜索引擎就是在这样的背景下产生的。针对主流搜索 引擎的不足,面向行业搜索引擎很大程度上补足了主

2、流搜索引擎的短处。本文实现 的系统通过记录用户个性知识,采用定制的爬取策略和更短的更新周期,提高有效 文档覆盖率和查准率,通过统计报表信息,新闻资讯定制推送服务等个性化方式展 示结果。 本文围绕面向行业搜索引擎系统,研究了要实现行业搜索引擎相关知识难点, 并按照搜索引擎组成的各个子系统,分别完成各个子系统的设计和实现工作。最后 完成对系统进行完备测试,总结各个测试的统计信息,并相应进行分析和总结,主 要做出了以下工作: 分析了主流搜索引擎的演进历程、主要搜索引擎类型,剖析了主流商业搜索引 擎的多个不足点;研究了搜索引的工作原理具体讨论了面向行业搜索引擎实现相关 的关键技术点,包括面向行业搜索引

3、擎的组成结构、信息检索模型、索引技术等关 键知识点;按照面向行业搜索引擎设计的总体构架、核心流程,针对各个组件进行 具体设计;面向行业搜索引擎的具体实现,包括页面信息的采集、索引创建和生成、 检索流程的实现;在系统设计和具体实现基础上进行了完备的测试,在统计测试数 据的基础上进行相应的分析。 关键词:面向行业搜索引擎,信息检索,索引,页面解析,结果集排序 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 II Abstract The situation of internet is “data explosion, lack of informa

4、tion“, commercial search engines can complete common users search requests generally, but in the search for specific industry, the major search engines can not meet this demand, mainly in: the useful document coverage is not high, noise informations proportion is high, precision is low. The industry

5、-oriented search engine is realized in this background. The industry-oriented search engine largely complements the weakness of the major search engines. This thesis realize that recording the individual users knowledge, using customized crawling strategies and shorter updating cycle, improving the

6、precision of the document, returning the results through personalized patterns. This article analyzes traditional search engine, and realizes that in many cases they can not achieve the requirement of customers efficiently. this essay researches the difficult points of implementing this system, then

7、 it achieves the design and implementation work of this system following each parts of search engine respectively. At last it executes system test, summarizes and analyzes statistics information of each parts of the test. Main works are shown in the following: Analyzing the evolvement of traditional

8、 search engine, the type of some main traditional search engine and their negatives; Discussing the work principle of search engine mainly on their key technologies including information retrieval module, indexing technology and so on; Designing each parts of orientated on industry theme based on it

9、s general framework and nuclear process; Implementing industry theme search engine, including page information collection, index creation, and retrieval process implementation; Executing general test based on system design and implementation and analyzing it based on statistics test data. Keywords:

10、industry-oriented search engine, information retrieval, index, page analysis, ordering the results 独创性声明 本人声明所呈交的学位论文是我个人在导师的指导下进行的研究工作及取得的 研究成果。尽我所知,除文中已标明引用的内容外,本论文不包含任何其他人或集 体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文 中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论

11、文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密,在_年解密后适用本授权数。 本论文属于 不保密 。 (请在以上方框内打“” ) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 1 1 绪论 1.1 课题背景 因特网信息资源就像一个浩瀚的资料库,变化频繁并且内容丰富,作为现今主 要的

12、信息存储和传播手段,是一个多语言、多类型的信息库。但是因特网是对全球 用户开放的分布式网络,网上的信息资源 URL 链接地址经常变换1,网页内容的发 布完全是用户按照自己的意愿随意发布,这样产生的网页信息内容缺少筛选和管理, 权威信息和业余网页混杂在一起,信息质量参差不齐,整体状态处于无序,因特网 信息量爆炸,造成了“数据爆炸,信息匮乏”的局面2。 根据 Internet 的发展速度和规模来看,不可能有哪一个搜索引擎能索引所有的 网页信息和文档3。清华大学的 IT 可用性实验室于 2006 年 10 月发布的报告表明, 目前世界上最大的中文搜索引擎百度对中文网页文档的索引覆盖只能达到对互联网

13、网页的 32.35%。并且,不一样的搜索引擎的搜索结果集的交集比例只有 15-30%。 仅仅对一次简单的检索请求,主流的搜索引擎通常会将数万计的结果返回到用户, 在返回的结果集中混有无用信息和有用信息,通常不属于用户所需要的结果项所占 有的比率占到 75%之巨4。伴随互联网中网页资源文档信息的快速增长,主流搜索 引擎的很多缺点暴露出来,并且制约了主流搜索引擎的发展,阻碍用户快速、准确 的获得网络资源文档,主流搜索引擎存在的不足有: 搜索引擎有效网页文档覆盖率不高,噪声信息量比例大,查准率和查全率较低。 单个搜索引擎通常只能覆盖所有互联网网页文档的 30%以下,通过切换几个搜索引 擎可以少幅度提

14、高查询率,但是需要很高的查询成本5。 搜索引擎检索结果取决于系统使用的信息采集策略、索引技术和检索排序算法, 覆盖的网络信息资源也不相同,主流的搜索引擎各自使用不同的索引技术、信息收 集技术和关键词查询技术,使得它们在各自搜索的信息资源在内容上、搜索范围上 有相当大的差异,并且由于各个商业搜索引擎水平不同,给用户检索和筛选结果造 成诸多的限制6。 1.2 课题目的及意义 以上阐述的关于主流搜索引擎的不足,主要是因为主流搜索引擎自身的技术瓶 颈制约了搜索引擎的进一步发展,一方面硬件制造尤其是磁盘技术长时间都没有突 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学

15、 位 论 文 2 破性的发展,计算机自身的 I/O 成本居高不下,另一方面互联网的爆炸式发展,要 求主流搜索引擎在满足最大范围用户面对基础上要尽可能的大范围覆盖网页资源信 息,这两方面的矛盾极大的制约了主流搜索引擎的进一步提高。所以在用户群固定, 用户兴趣爱好和知识背景大致相同的时候,面向行业搜索引擎为不同用户群使用个 性化定制搜索引擎可以在解决上述主流搜索引擎的不足。 面向行业搜索引擎作为主流商业搜索引擎的强大补充,很大程度上完善了主流 搜索引擎的短处。面向行业搜索引擎作为一个独立的系统为不同用户群体提供搜索 查询服务,用户通过注册等方法手段获取用户的兴趣、爱好和知识方向等个性知识, 面向行

16、业搜索引擎会为每个用户提供不同的服务: ? 可以记录用户感兴趣的行业信息,包括用户对感兴趣行业内的厂商以及厂商 旗下品牌的信息; ? 可以为特定用户提供定制时间区间内厂商或者品牌相关统计报表信息,以及 网络热点新闻资讯定制推送服务。 当获知用户兴趣方向和个性知识后,可以根据用户提交的关键词信息检索后台 索引库文件,搜索引擎会根据用户的个性知识按照内置知识计算策略,将提交的关 键词转换生成特定的检索关键词集合,然后根据用户使用上下文信息的属性权重信 息对最后的检索结果集进行排序7, 最后根据用户设定的页面样式将结果集显示在 客户端中。 在提供给用户查询的接口界面中屏蔽后台繁琐的检索系统实现, 最大限度的简化整 个查询过程,减少了用户的查询负担和查询成本,尽可能提升检索效率,并且还提升检 索的查准率和查全率,降低用户查询成本,以及提高相应系统评价指标参数。 1.3 本文主要研究工作 本文阐明了主流搜索引擎的现状和不足,说明搜索引擎信息索引相关算法技术 基础,并对搜索引擎的索引文件存储组织格式和数据结

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号