网络检索系统的设计方案

上传人:桔**** 文档编号:454677259 上传时间:2022-07-23 格式:DOCX 页数:5 大小:140.16KB
返回 下载 相关 举报
网络检索系统的设计方案_第1页
第1页 / 共5页
网络检索系统的设计方案_第2页
第2页 / 共5页
网络检索系统的设计方案_第3页
第3页 / 共5页
网络检索系统的设计方案_第4页
第4页 / 共5页
网络检索系统的设计方案_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《网络检索系统的设计方案》由会员分享,可在线阅读,更多相关《网络检索系统的设计方案(5页珍藏版)》请在金锄头文库上搜索。

1、基于 Lucene 的网络教学资源检索系统的设计与实现李勇 1 王移芝 2(1.北京理工大学,北京 100081;2.北京交通大学,北京 100044)摘 要 在网络教学资源平台中加入资源搜索功能,有利于学习者快速定位 学习资源。本文在开源搜索引擎 Lucene 的基础上,设计并实现一个网络教学资 源检索系统。 首先介绍如何用 XML 来组织网络教学资源,接着分析了系统的功 能目标和体系结构,最后对系统的索引构建和检索系统实现中的关键技术进行探 讨。关键词网络教育;教学资源;资源检索;Lucene; XML1 前言随着网络教育迅速发展,各种形式的网络教学资源日趋丰富,信息的种类也 在不断的扩展

2、。一方面越来越 多的非结构化信息不断出现,如文本、图像、动 画、音频、视频等,这些资源都属于非结构化数据,与之相应的网络教学资源的 组织却不尽如人意,找到所需要的教 学资源是一件费时费力的事。另一方面大 量的冗余信息、过载信息使得用户难以准确快速地找到他所需求的信息和资源。在此背景下,本文结合校重点教改项目“数字媒体资源建设的研究与实 践”,其总体思想是开发以 XML 为结构和内容载体的数字媒体资源库,并将其 以丰富的表现形式在浏览器中显示出来。笔者在本文中主要讨论如何在数字媒体 资源平台中加入中英文搜索引擎。使用 Lucene 和 XML 技术设计并实现一个 Web 搜索引擎,可对数字媒体资

3、源平台中的全部文本、图片、视频、动画等资源进行 搜索,以便学生和教师用户快速定位和找到所需 要的数字媒体资源。Lucene 不是一个完整的全文索引应用,而是一个用 Java 写的全文索引引 擎工具包,它可以方便地嵌入到各种应用中实现针对应用的全文索引、检索功能。 可以把 Lucene 当成一个支持全文索引的数据库系统1。 其组织结构如图 1 所 示。Lucene包含了大量的抽象类、接口、文档类型等,需要根据具体应用来定 义实现,本文通过扩充 Lucene 包来完成中文的全文检索功能。J org. apachei luc ene. storeorg. apache luc ene. indexo

4、rg. apache luc ene. s eanch时外接口org. apache luc ene. do cum entorg. apache luc ene. util基础结构封装图 1 Lucene 系统的结构组织图2 系统功能目标设计本文实现的教学资源搜索引擎主要由四大功能模块组成:(1) 存储模块:本系统在资源的组织上,将资源的相关信息用 XML 文件来 存放,使其独立于各种平 台,以便数据能够方便地进行传递。把搜索到的信息 也存进单一的 XML 文档中,相对于每个独立文件,它可以减少索引程序进行文 件定位和打开关闭文件所需要的时间,这在数据量比较大的时候效果特别明显 2。 资源存

5、储描述如图 2 所示。在系统中,对资源源数据描述包括资源描述、知识点描述、关键词描述、试 题描述、用户信息描述。资源 描述是对系统中各种资源的描述信息包括资源 ID、 资源关键字、资源章节、资源类型、资源存放路径等信息;资源信息的描述采用 了 IMS 的内容包装规范,这种规范的优点是可以清晰地描述资源的结构及相关 资源的存储位置,同时具有很高的扩充性,为搜索引擎的应用提供了方便。(2) 文档分析模块:该模块主要针对XML文件,其主要功能是把XML标签 去掉。( 3)索引模块: 主要负责新建索引、更新索引,以及维护数据索引。索引 程序需要对 XML 文档中的文本、图像、动画、音频、视频等数据进行

6、索引,为索 引程序的运行过程建立运 行日志,并存盘。(4)检索模块:以Web页面作为用户检索的界面,对数据进行检索,支持 高级查询,对检索结果提供 方便的查看方式。图 2 资源描述 XSD 文件的直观图3 系统结构图与 XML 处理3.1 系统结构图图3 搜索引擎结构图Lucene本身只是一个组件,而非一个完整的应用,所以若想让Lucene在数 字媒体资源平台上 运行,需在Lucene基础上进行必要的二次开发。在本系统中 利用Jsp+Javabean技术,构建搜索引擎模式。Jsp负责页面处理,数据和逻辑 处理则由JavaBeans完成。图3为搜索引擎的结构图。3.2 XML文档处理根据系统词典

7、,用MM法对资源关键字和描述分词后,接着要建立索引, Lucene对文件进行索引使 用的是IndexWrite类。因为Lucene本身只能对TXT 文件和HTML文件进行索引,所以要对其它的文档进行索引,还必须扩展Lucene 的文 件内容分析器2。资源文件的信息以XML文档存储,XML中有大量的标记,如在 “04 中的 “和 “/ type”对搜索来说是噪音信息,这些标记必须首先去掉,才能进行进一步的处 理。其基本原理是在碰到“”或“”标记,找到后, 将“”或“”之间的内容在一张标记词表中检索,这张词表包括了 课件文件中的大部分标记。如果 检索成功,则去除这些标记。4 lucene检索系统的

8、实现4.1 索引构建索引构建模块将上述处理后的数据源XML文档转化为Lucene所能使用的索 引文件(document)。将一条数据信息添加到索引文件中,首先创建了类 Document的一个实例,它由一个或者多个的域组成。其域为实际文档的一些属 性。比如对于XML数据源中一条网络教学资源的信息记录,它的域可能包括资源 名称、资源描述、资源关键字、资源所属目录等。不同类型的Field来控制文 档 的哪些内容应该索引,哪些内容应该存储。其次向文档中添加域,每个域包含两 个属性,分别是域的名字和域的内容。本系统中分别是Res_Name和Res_Desc, 存储需要索引的资源名称和描述。最后把准备好的

9、文档添加到了索引当中。当把 索引文档都添加到索引中后,要关闭索引,这样才保证把添加的 文档写回到硬 盘上。创建索引最重要的类是IndexWriter,其构造器有3个参数,分别为存储索 引文件的路径、分 词器及布尔变量,用于控制是重建索引,还是复用原有索引 4。修改该索引器所使用的语言分析器,使其支持中文分词。本系统采用了 基 于字典的前向最大匹配法(MM法)的中文分词器,并且在生成索引器时将支持 此中文分词器作为参数传递给索引器,成为索引器的成员,使其在索引过程中使 用 该语言分析器进行分词。IndexWriter方法即为IndexWriter (“RSindex, new MMSstanda

10、rdAnalyzer(),true)。4.2 检索系统的实现用户在搜索页面中 输入需要查询的关键字后,将关键字送到 Lucene 的查询 分析器中。这里的查询分析器使用的是 Lucene 核心中的 Query2parse 类,对用 户提交 的查询关键字组成的逻辑表达式进行分析。对己建索引的搜索进行搜索, 在类中建立一个新的方法search (String),参数indexDir为索引建 立的目 录, queryString 为查询的字符串,这里搜索过程主要用到两个对象 IndexSearcher和Query。IndexSearcher用 来找到索引数据,Query用来处理 搜索请求5。然后被调

11、用进入 Lucene 的搜索入口,再对索引进行查询,然后返回查询结 果。检索时,用户提交检 索关键字,先调用的 Lucene 查询分析器分析用户提交 的查询,然后调用 IndexSearcher 类进行搜索,就是按查询分析器所形成的查询 条件 Query 对 Lucene 索引进行搜索匹配,在经过 Lucene 的排序后返回结果为 类,可以通过它再访问 Document 索引文件 field 中的内容,最 后输入用户查询、 调用检索器,将检索器返回的查询结果即多个 hits 分页显示在 Web 结果页面6。 在本系统中,用户可以通过关键字、资源类型检索相关资源,单击“检索资源”, 显示资源检索

12、结果页面。5 总结本网络教学资源检索系统是基于 Lucene 开放源代码技术的二次开发利用, 在查询方式、检索结果处 理和分类检索等方面有较大的改进。同时,它放弃了 传统教学资源搜索引擎的基于数据库匹配的查询方式,采用了 XML 来组织存放资 源的相关信息。该方法不仅采 用了基于字典的前向最大匹配法分词检索技术, 还支持动态更新 Lucene 文档索引等许多新技术。当然,本系统在许多方面仍需 要改进,如对查询条件中“or”语法的支持、更智能的中文切分与信息过滤等, 这些有待于进一步的开发和深入探讨。参考文献1 王莉云,王华,陈刚,姚乃明;基于的 Lucene 全文检索系统的设计与 实现J计算机

13、工程与设计,2007 (12)2 李 毅,杨善林,刘业政,顾铁军.基于XML的网络课件环境中搜索引擎 的实现J.武汉理工大学学报,2003 (6)3 晁岳峰,曹作良,郭英玲基于 Lucene 的搜索引擎在远程教育平台中的 实现J.天津理 工大学学报,2005 (12)4 lucene 官方网站.http: /jakarta.apache.org/lucene/. 2007-10-115 Parsing, indexing, and searching XML with Digester andLucene.http: / DougCutting . LucenelectureatPisa. November 24 2004, University of Pisa收稿日期:7 月 28 日修改日期:8 月 7 日

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号