基于p2p数据库搜索引擎的研究

上传人:E**** 文档编号:114239568 上传时间:2019-11-10 格式:PDF 页数:62 大小:2.81MB
返回 下载 相关 举报
基于p2p数据库搜索引擎的研究_第1页
第1页 / 共62页
基于p2p数据库搜索引擎的研究_第2页
第2页 / 共62页
基于p2p数据库搜索引擎的研究_第3页
第3页 / 共62页
基于p2p数据库搜索引擎的研究_第4页
第4页 / 共62页
基于p2p数据库搜索引擎的研究_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《基于p2p数据库搜索引擎的研究》由会员分享,可在线阅读,更多相关《基于p2p数据库搜索引擎的研究(62页珍藏版)》请在金锄头文库上搜索。

1、上海师范大学 硕士学位论文 基于P2P数据库搜索引擎的研究 姓名:曹杨明 申请学位级别:硕士 专业:计算机应用 指导教师:陈军华 20090401 上海师范大学硕士研究生论文 基于 P2P 数据库搜索引擎的研究 摘 要 基于P2P数据库搜索引擎是一种将P2P新理念和数据库的技术优势融入到搜 索引擎的方法,用户通过查询接口输入关键词,经 P2P 网络将关键词传输至各个 节点,节点将查询本地数据库,从而返回查询信息的过程。比类似于 Google 等 基于页面的通用搜索引擎在服务器安全性、 链接有效性以及更新及时性等方面有 较大改善。 本文分析了基于 P2P 数据库搜索引擎和传统通用搜索引擎在系统架

2、构、 工作 原理、关键技术等方面的异同,介绍了 JXTA 平台对于 P2P 技术的重要意义,提 出了基于 XML 的搜索策略和过滤策略,研究了主动更新算法和被动更新算法,并 且在构建数据库词库的同时,研究了分词技术,在 Lucene 的基础上开发了中文 分词模块。最后实现了基于 P2P 数据库搜索引擎。 关键字:搜索引擎;JXTA;XML;中文分词 上海师范大学硕士研究生论文 基于 P2P 数据库搜索引擎的研究 Abstract P2P-based database search engine is an approach which brings new concept of P2P and

3、 technical superiority of databases into the search engine.Through query interface users can input key words which will be transferred to every peer, then the peer will search the local database and return the result.Its much better than page-based general purpose search engine such as Google in ter

4、ms of server security, outdated links that are not updated in time etc. This paper analyzes the difference and common between the P2P-based database search engines and traditional search engine in the system architecture, working principle, the key technology areas, and also introduce the significan

5、ce of JXTA platform for P2P technology, XML-based search strategy and filtering strategy, also research active and passive update algorithm ,and when building a database thesaurus, study word analysis technology and develop Chinese word analysis module based on Lucene .Finally, the paper realize P2P

6、-based database search engine. Key words: Search Engine; JXTA;XML;Chinese Words Analysis 上海师范大学硕士研究生论文 基于 P2P 数据库搜索引擎的研究 58 论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。 论文中除 了特别加以标注和致谢的地方外, 不包含其他人或机构已经发表或撰写过的研究 成果。 其他同志对本研究的启发和所做的贡献均已在论文中做了明确的声明并表 示了谢意。 作者签名: 日期: 论文使用授权声明 本人完全了解上海师范大学有关保留、使用学位论文的规定,即:学校有权

7、保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其它手段保存论文。保密的论文在解密后遵守此 规定。 作者签名: 导师签名: 日期: 上海师范大学硕士研究生论文 基于 P2P 数据库搜索引擎的研究 59 本论文经答辩委员会全体委员审查,确认符合上海师范大学硕 (博)士学位论文质量要求。 答辩委员会签名: 主席(工作单位、职称) : 委员: 导师: 上海师范大学硕士研究生论文 基于 P2P 数据库搜索引擎的研究 1 第一章 绪论 1.1 研究的背景及现状 搜索引擎的出现源于互联网的发展,互联网现已普及到万家万户,据发表在 科学杂志的文章互联网搜索

8、引擎信息的可访问性估计,目前全球的的网 页超过了10亿,有效数据超过9T,而且仍以4个月翻一番的速度增长,用户在如 此浩瀚无边的信息海洋里寻找自己需要的资源,必然手足无措,而搜索引擎正是 为了帮助用户解决上述问题的技术。 从1990年蒙特利尔大学学生AlanEmtage发明以文件名来查找文件的系统 Archie,到1994年第一个web搜索引擎Lycos的出现,直至如今以Google、百度为 代表的将最匹配页面返回给使用者的第二代搜索引擎,在搜索算法和效率、性能 上可谓精益求精,但此类搜索引擎由于其搜索模式的原因,导致整个搜索过程依 赖服务器而产生的潜在风险及无法及时更新URL而产生无效链接的

9、不良用户体验 等,因此将P2P技术融入搜索引擎渐渐地成文课题研究和未来趋势的一个新的方 向。 相对于通用的搜索引擎,如Google等基于页面内容的、集中式的搜索引擎而 言,P2P搜索中的对等点都处于对等地位,并各自具有相同的服务。所以无需集 中式服务器就可以完成共享信息资源、处理器资源、存储资源甚至高速缓存资源 等功能,并且对等点在网络中逻辑上相互连接,点与点之间可相互协作,形成规 模效应,大大提高网络利用率的同时,也给用户带来了更加自然、直接的交流方 式,从而提高了效率1。 当前,许多的研究机构和商业公司着力于P2P网络的研究,其中比较著名的、 有影响力的有Microsoft,Intel,S

10、un等。Sun公司还专门成立了一个P2P的开源 项目,期望进一步将P2P网络的非集中控制、自组织、自适应和良好的可扩展性 等优势统一成平台。MIT等国外知名大学也成立了P2P网络的相关研究小组。在国 内部分科研院所、高校也着手于P2P网络的研究,但还没有突破性的研究成果。 直至目前,基于P2P的研究已有了一定的应用成果,如SUN公司主导的JXTA工 程, 闻名遐迩的Napster23, 就展现出了P2P网络在资源搜索领域中的巨大潜力; 基于P2P搜索引擎的研究仍在继续, 本文将当前流行的数据库技术与P2P搜索引擎 相结合,针对时下传统搜索引擎的不足之处,提出了基于P2P数据库搜索引擎。 上海师

11、范大学硕士研究生论文 基于 P2P 数据库搜索引擎的研究 2 1.2 研究的意义和目的 从当今著名的搜索引擎巨头Google1998年成立以来,其市值已逾千亿美元。 这反映了在信息化日益发达的二十一世纪,人们对搜索引擎需求的强烈。 据CNNIC(中国互联网网络信息中心) 第22次中国互联网络发展状况统计报 告显示,目前在中国搜索引擎的使用率为69.2%,网络应用中排名第五, 也是三 大互联网基础应用:即时通信、搜索引擎和电子邮件最重要的应用之一。搜索引 擎作为网民获取信息的重要工具,其增长是迅速的: 2008年上半年搜索引擎用户 增长了2304万人,半年增长率达到15.5%,并且仍在持续增长。

12、即便如此,网上 的调查表明搜索引擎的现状与人们的预期相比仍然有许多不足之处。 集中式的通 用搜索引擎技术通常会存在着以下缺陷: 1)信息不够全: 没有一个集中式通用搜索引擎可以检索出总网页数的50%。 即便是Google这个目前最出色的搜索引擎也只能搜索到20%-30%的网络资源4。 2)更新不够及时:集中式的通用搜索引擎一般每月才更新一次,所以查询得 到的信息可能已经过时。 3)准确度不够:集中式的通用搜索引擎动辄返回几百条几千条信息,其中 包含了许多无关或者相关性很小的信息。如果搜索目标网页改变URL后,会导致 无效链接的问题。 4)服务器负担太重:集中式的搜索引擎将网络蜘蛛(也叫网页爬行

13、器)、 分词器、索引器、查询器的工作都由服务器完成,即时有了负载均衡等相关减轻 服务器负担的技术,但信息的爆炸式增长远快于服务器的性能提升。 针对以上的缺陷和不足,许多学者结合数据挖掘、人工智能等技术对集中式 的通用搜索引擎开展了许多有益的、创造性的工作,取得了一定的学术成果,为 搜索引擎的进一步发展奠定了理论基础有着十分重要的意义。 本文涉及P2P网络搜索数据库中的知识,涉及JXTA、搜索引擎、中文分词等 技术,因此对于基于P2P数据库搜索引擎的研究无论从现实还是理论角度,都有 着良好的发展前景和深远的影响。 1.3 本文的创新点 上海师范大学硕士研究生论文 基于 P2P 数据库搜索引擎的研

14、究 3 1)本文提出将 P2P 和数据库技术优势引入到搜索引擎,提出了基于 P2P 数据 库搜索引擎,并且分析了其优势。 2)研究了基于 P2P 数据库搜索引擎中的关键技术, 提出了基于 XML 的过滤策 略,和基于 XML 的主动更新算法和被动更新算法。 3)对 Lucene 进行了二次开发,实现了中文分词模块。 1.4 本文的组织结构 本文共分为五个章节,各章节内容安排如下: 第一章是全文概述,介绍了论文的研究背景、内容和意义。 第二章全面介绍 P2P 技术和 JXTA 平台,从 P2P 的起源及 JXTA 的提出入手, 介绍了应用于P2P系统中JXTA平台的设计初衷和论文中分析JXTA网

15、络时用到的 有关概念,包括其基本概念、核心协议和层次结构。 第三章介绍搜索引擎的原理及其发展趋势,分析了搜索引擎的评价标准,在 此基础上分析了基于 P2P 数据库搜索引擎的优势。研究并实现了系统的关键技 术,即基于 XML 的过滤策略和 lucene 的中文分词的二次开发。 第四章分析了基于 P2P 数据库搜索引擎的系统架构,设计了用户接口、P2P 通信子系统、本地资源管理系统三大模块,实现了系统实现所需的类。然后在实 验环境中对系统进行了测试,得到了预期的效果。 第五章对全文做出总结。 上海师范大学硕士研究生论文 基于 P2P 数据库搜索引擎的研究 4 第二章 P2P网络与 JXTA平台 2

16、.1 P2P 网络概述 2.1.1 P2P 网络基本概念 P2P的全称是Peer-to-Peer,相应的中文是点对点。P2P网络即对等网络又称 点对点技术,顾名思义,在对等网络中,所有的对等点都是相对独立的,它们可 以以任意的方式加入和离开整个网络,而不会对其它对等体产生影响,和传统的 客户端/服务器模式相比,对等网络中没有了服务器的概念,每个对等点都是客 户端,即需要其它对等点的服务,又同时也是服务器端,即为其它对等点提供服 务。在P2P网络中每个对等体都是高度动态和灵活的,他们只要加入该网络,就 具有了其它节点同样的责任和能力,节点之间可以相互协作,共同完成任务,因 此,整个网络具有很高的共享性。 对等网络具有很多的优点:对等网络具有很强的动态性,无论它所

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号