参考基于lucene本地搜索程序概要设计

上传人:bin****86 文档编号:55164069 上传时间:2018-09-25 格式:DOC 页数:46 大小:398KB
返回 下载 相关 举报
参考基于lucene本地搜索程序概要设计_第1页
第1页 / 共46页
参考基于lucene本地搜索程序概要设计_第2页
第2页 / 共46页
参考基于lucene本地搜索程序概要设计_第3页
第3页 / 共46页
参考基于lucene本地搜索程序概要设计_第4页
第4页 / 共46页
参考基于lucene本地搜索程序概要设计_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《参考基于lucene本地搜索程序概要设计》由会员分享,可在线阅读,更多相关《参考基于lucene本地搜索程序概要设计(46页珍藏版)》请在金锄头文库上搜索。

1、 基于基于 lucenelucene 本地搜索程序概要设计本地搜索程序概要设计 指导老师指导老师: : 组组 名:名: 所属院系:所属院系: 专专 业:业: 班班 级级: 完成日期完成日期: 摘摘 要要随着因特网的迅猛发展,搜索引擎提供导航服务己经成为互联网上非常重要的网络服务。利用 Lucene 开源全文本搜索技术框架建立全文检索系统,设计实现了索引器、检索器、中文分析器等模块,完成了一个基于 Lucene 的搜索引擎的应用,改进后的基于 Lucene 的全文检索系统能更好地支持中文及更准确地提供给户所需要的信息。 关键词:关键词:搜索引擎;网络爬虫;搜索引擎;网络爬虫;Lucene;Her

2、itrixABSTRACTWith the rapid development of the Internet, the search engine provides navigation services have become very important network service on the Internet. Using Lucene open source full text search technology framework to build full-text retrieval system, designed for indexers, Retrievers, C

3、hinese Analyzer module, completed an application based on the Lucene search engine, improved full-text search based on Lucene system better support for the Chinese and be a more accurate information provided to user needskeywords: search engine ; web crawler ; Lucene ; Heritrix3目录目录 摘 要2 ABSTRACT.2

4、前景4 产品介绍5 第 1 章 设计概述6 第 2 章 开发与运行环境7 2.1 开发环境的配置7 2.2 运行环境的配置7 2.3 需求概述8 第三章 总体设计9 3.1 软件描述9 3.2 处理流程9 3.2.1 文档搜索处理流程.9 3.2.2 多媒体及图像搜索处理流程.10 3.3 功能结构设计10 3.3.1 搜索文件格式筛选功能结构.10 3.3.2 搜索范围功能结构.10 3.4 接口设计10 3.4.1 本地方法.11 3.4.2 报告编程错误.12 3.4.3 异常处理.12 3.5 数据结构设计12 3.5.1 逻辑结构设计.12 3.6 关键技术13 3.6.1 搜索.1

5、4 3.6.2 索引.14 3.6.3 多级缓存.14 第四章 界面设计及响应时间15 41 界面设计.15 4.2 系统响应16 第五章 出错处理设计17 5.1 出错输出信息17 5.2 出错处理对策17 第六章 安全保密设计18 6.1 设计原则18 6.2 安全保密方案设计的总体框架19 6.3 安全保密方案设计步骤19 6.4 初级阶段的安全控制计划20 6.5 开发阶段的安全控制设计21 第七章 维护设计22 致谢23 参考文献244前景前景随着信息技术不断发展、互联网信息不断丰富,搜索引擎的发展速度也越 来越快,目前仅 Google 收录的网页就超过 80 亿。伴随着搜索引擎的飞

6、速发展, 相 应的瓶颈问题也开始出现:索引数据库越来越大,需要的维护成本越来越高; 索 引数据源单一,通常只限于文本内容;索引缺乏通用性和灵活性等等。而 Lucene 具有开放性和易扩展性,对于解决搜索引擎目前的问题有很好的应用价值。本 文 通过研究设计并开发实现一个小型简单的基于 Lucene 的本地搜索引擎,来研究 Lucene 在搜索引擎领域的应用前景。主要工作包括: (1)分析了本地搜索引擎的组成结构和工作原理,在此基础上进行了基于 Lucene 的本地搜索引擎的整体结构设计,并将系统分为网页搜集子系统、索引 检 索子系统、查询结果排序子系统等三个模块。 (2)针对各个模块的功能进行了

7、设计开发,设计了相关信息的存储机制,并 根据搜索引擎的工作原理实现了各模块之间的交互。 (3)深入分析并实现了多线程搜集、运用 Lucene 实现索引和检索、搜索 结果的页面优先度计算等等基于 Lucene 的本地搜索引擎的关键技术。产品介绍产品介绍1)lucene 的索引建立机制不同,在数据库维护的复杂度和性能方面传统本地 搜索引擎有很大优势。52) 于 Lucene 并不是一个完整的搜索引擎,而只是提供索引和搜索功能,可以 很方便的嵌入到各种应用中实现对应用的索引搜索功能,这种特点为制定更 加灵活的搜索、结果排序策略提供了可能,从而为用户提供更加符合其需求的 灵活多变的搜索引擎。 3)Lu

8、cene 是一个开源项目,其排序算法更加透明,搜索结果势必更加客观公正。本文根据以上 Lucene 的特点来设计开发一个基于 Lucene 的小型的搜索引擎, 研究 Lucene 在互联网搜索领域的应用前景。第第 1 章章 设计概述设计概述(1)本地文献信息检索是获取知识的捷径。掌握文献信息检索方法与技能,可以帮助人们快、准、全地获取所需知识,最大限度地节省查找时间,使文献 信息得以充分的利用。 (2)本地文献信息检索是科学研究的向导。要进行有价值的科学研究,必须依6赖文献检索,全面获取相关文献信息,及时了解各学科领域出现的新问题、新 观点、以确定自己的研究起点和研究目标。 (3)本地文献信息

9、检索是终身教育的基础。科技的迅速发展使知识的总量呈指 数增长,而知识的陈旧速度也明显加快,这就要求人们具有终身教育的能力, 这种能力在很大程度上就是获取新知识的能力,就是对新知识的敏感力和接受 力,因而必须掌握文献信息检索的方法。终身学习的需要,是知识创新的需要。本程序的开发基于 lucene 的基础进行开发,在对本地文件进行文件名搜 索的同时,能够更准确的识别文件内容与所搜索关键词的具体相关性。第第 2 章章 开发与运行环境开发与运行环境Windows 2000 或 Windows XP 操作系统,72.1 开发环境的配置开发环境的配置2.2 需求概述需求概述本地搜索程序的实现,需要 luc

10、ene 作为设计核心。 本地搜索程序的使用,需要用户具备最基础的计算机操作技能,能完成程序的 安装,搜索关键词的输入。类别标准配置最低配置计算机硬件基于 Intel86 结构的 CPU,主频2.4GHz 内存512M 硬盘至少有 200M基于 Intel86 结构的 CPU,主频1GHz 内存256M 硬盘至少有 200M计算机软件Windows 2000 或 Windows XP 操作系统,Visio C+ 6.0 WinPCap3.1 以上Tcl 84Windows 2000 或 Windows XP 操作系统,Visio C+ 6.0 WinPCap3.1 以上 Tcl83 以上其它采用

11、 Microsoft SQL 2000 数据库系统采用 Microsoft SQL 2000 数据库系统8第三章第三章 总体设计总体设计本地搜索程序的总体思路分析与设计,在整个程序里,除了 Lucene 的必要 操作外,就是 IO 的基本操作了。因为要对某目录下及其子目录下的所有 Java 源文件进行索引,就要用到递归,同时要过滤掉非 Java 源文件。根据这种情况, 设计了以下 5 个类:主类:索引类(IndexJavaFiles) ,搜索类 (SearchJavaFiles) 异常类:索引异常类(IndexException),搜索异常类(SearchException) 还有一个文件过滤

12、工厂类(FileFilterFactory) 。3.1 软件描述软件描述本程序通过对用户输入的搜索关键词及所选文件类型进行分析,之后进行 全盘(分盘)搜索。关键词搜索范围包括文件名、文件所在文件夹名、文件属 性描述。3.2 处理流程处理流程搜索的处理流程主要分为文档类的搜索处理、多媒体类搜索处理、图像文件搜 索处理。 3.2.1 文档搜索处理流程输入关键词,并选择搜索范围对范围内的关键词文件名进行搜索对范围内的关键词文件夹进行搜索对范围内关键词文件的属性进行搜索对搜索结果 进行列表反 馈,并根据 用户所选显 示文件信息。93.2.2 多媒体及图像搜索处理流程3.3 功能结构设计功能结构设计为更

13、快的提供搜索响应,需考虑软件的搜索类型筛选,搜索范围选择功能, 以便提高搜索效率。 3.3.1 搜索文件格式筛选功能结构此功能多用于搜索多媒体文件的搜索,用户可在输入搜索关键词后进行文 件格式选择,极大提高搜索效率。输入关键词并选择搜索格式、范围对范围内的关键词文件名进行搜索对范围内的关键词文件夹进行搜索对范围内关键词文件的属性类型进行搜索对搜索结果 进行列表反 馈,并根据 用户所选显 示文件信息。103.3.2 搜索范围功能结构此功能可用于所有类型的文件搜索,在用户已经确定搜索文件的范围的前 提下使用该功能,可手动选择其搜索范围,更快速的进行文件查找。3.4 接口设计接口设计尽管可以完全用

14、Java 编写应用程序,但是有时单独用 Java 不能满足应用程序的需要。程序员使用 JNI 来编写 Java 本地方法,可以处理那些不能完 全用 Java 编写应用程序的情况。 Netscape 建议使用 Java 运行时接口 (JRI),它是 Java 虚拟机所提供服务的通用接口。JRI 的设计融入了可移植性-它几乎没有对底层 Java 虚拟机的实 现细节作任何假设。JRI 提出了各种各样的问题,包括本地方法、调试、反射、 嵌入(调用)等等。 对本地方法的加载通过 System.loadLibrary 方法实现。下例中,类初始化方 法加载了一个与平台有关的本地库,在该本地库中给出了本地方法

15、 f 的定义: 下面简要分析一下部分已有本地方法接口,例如: JDK 1.0 本地方法接口 Netscape 的 Java 运行时接口 Microsoft 的原始本地接口和 Java/COM 接口 JNI 接口的组织类似于 C+ 虚拟函数表或 COM 接口。使用接口表而不使用硬 性编入的函数表的好处是使 JNI 名字空间与平台相关代码分开。虚拟机可以很 容易地提供多个版本的 JNI 函数表。例如,虚拟机可支持以下两个 JNI 函数 表: 一个表对非法参数进行全面检查,适用于调试程序; 另一个表只进行 JNI 规范所要求的最小程度的检查,因此效率较高。 113.4.1 本地方法 对本地方法的加载通过 System.loadLibrary 方法实现。下例中,类初始化方法加载了一个与平台有关的本地库,在该本地库中给出了本地方法 f 的定 义: package pkg;class Cls native double f(int i, String s);static System.loadLibrary(“pkg_Cls“); JNI 允许本地方法访问 Java 对象的域或调用其方法。JNI 用符号名称和类型 签名来识别方法和域。从名称和签名来

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号