信息检索系统方案

上传人:枫** 文档编号:542531835 上传时间:2024-01-02 格式:DOCX 页数:12 大小:113.04KB
返回 下载 相关 举报
信息检索系统方案_第1页
第1页 / 共12页
信息检索系统方案_第2页
第2页 / 共12页
信息检索系统方案_第3页
第3页 / 共12页
信息检索系统方案_第4页
第4页 / 共12页
信息检索系统方案_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《信息检索系统方案》由会员分享,可在线阅读,更多相关《信息检索系统方案(12页珍藏版)》请在金锄头文库上搜索。

1、信息检索系统方案The document was finally revised on 2021HX-2055 信息检索系统方案目录一 项目意义随着互联网的快速发展,每天有数千万条信息生成,包括文字信息、 图片信息、视频信息、语音信息等,通过百度、谷歌等大型商业搜索引擎 可以找到自己想要的信息,但是也存在很多弊端。百度、谷歌等大型商业搜索引擎的搜索原理是基于网络爬虫(Spider)在世界各地百万台服务器上爬取网页数据,然后存储到数据库之后展现给查询用户,随着网站数量以及网络上信息更新的快速化,这些 网络爬虫不能保证把所有的信息都抓到,尤其是特殊行业的行业信息,即 便是抓到了也不一定能够在众多数

2、据中展现出来。所以,对于一个部门来 讲,有必要存在一款互联网信息检索系统来检索某一个行业的信息,每天 自动在各大行业网站、政府网站等数据库中检索最新信息,通过自建的网 络爬虫进行目标数据的抓取、存贮、归类、展现。通过自己的信息检索系统,可以让自己部门每天轻松地获得世界各 地、各个部门都发生了什么,有哪些新的政策,方便管理层在最新的信息 数据下快速做出正确的决定。据统计,内部网上的信息每年以 200%的速度增长,其中发布到互联网 上的信息只占到信息量的 1%-2%,而 98%以上的信息是发布在内部网上的。 内部网上的信息既有网页形式的,也包含其他 Word、PDF、XML 等多种格式 的数据。因

3、此,面对内部网中海量异构的信息资源,如何帮助用户快速找 到他们所需要的信息是一个主要的技术挑战。搜索引擎能帮助用户方便、快捷、安全地获取内部网上的信息,在满 足高效的同时,更重要的是保证了较高的查全率和查准率,能提供智能化的概念扩展搜索,极大的提高工作效率。内部网搜索引擎将组织中分散管 理的信息整合在一起,在组织层面上实现新的增值与共享,从而有效实现组织内容利用的最优目标。搜索引擎的目标是实现内部网全文检索。系统可对实施了内部网站资 源进行爬行,无论内部网上的数据源在何地、以何种形式存在,都能够对 其快速地访问,通过准确的分词建立索引,从而实现高质量的搜索查询。 搜索引擎的主要目标包括:(1)

4、较高的查准率。搜索系统支持按词索引、按字索引,同时实现中 文自动分词。(2)较高的查全率。搜索系统可搜索各类异构的信息资源,包括传统的网页信息、Word、PDF、XML等不同格式的文档以及各类主流数据库的表 中记录。(3)智能化的检索结果排序。安全搜索系统应采用相关度分析技术, 将用户需要的信息排在结果列表的前面,屏蔽无用和错误的信息。二 系统设计技术原理HX-2055互联网信息检索系统(以下简称HX-2055)是针对特殊行业、政府部门、决策部门设计的一款高效率互联网信息检索系统,采用国 际一流程序算法设计,系统构架与谷歌和百度的搜索引擎拥有共同的技术 特点,能够保证系统对实时信息的快速采集、

5、归类、展现。在当今信息爆炸的时代,每个单位或个人都在为信息的快速增长做出 了各种贡献。信息的种类也在不断的扩展,越来越多的非结构化信息不断 出现,包括企业的各种报表、帐单、电子文档、网站的各种元素、图片、 传真、扫描影像,以及大量的多媒体的音频、视频信息等等。所有的存储 数据中,有 85%采用的是非结构化格式的,非结构化信息每三个月增长一 倍。由于信息格式的差异很大,所以基本无法整合为统一的接口供政府工 作人员或广大群众方便使用。全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立 一个索引,指明该词在文章中出现的次数和位置,当用户查询时根据建立 的索引查找,类似于通过字典的检索字表查

6、字的过程。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务 的软件系统。全文检索系统的核心则具有建立索引、处理查询返回结果 集、增加索引、优化索引结构等功能。HX-2055全文检索系统的主要目标 是实现文本索引的快速构建(Index Cons true tion),动态文档集的索引维 护(Index Maintenance),短语查询(Phrase Query),Top-K 查询的快速处 理(Top-k Query Process)以及各种检索模型(IR Model)等。高性能和 灵活的架构也使HX-2055全文检索系统可以应用在内外网检索、专业系统 资料检索、行业专业数据库检索内

7、邻用HIM I.ASP,TXT Lotus NoteI TOC XLS,PET,rD)F,OCR.WPSJiML,ZIK RAR.MK3计创任务悝貂f;.息栓命检盍子票统布尔沓沏Cache ft 询词邮杳询自劫捋悽字段號耽同丈札嗦白功相关瞠仃息适配襦愿处蛍了系统R : tP 卜dmOracleSqtscn-erSybij;j2BiulhcV心跖配爲桶件僧息館1増竝漏引徧码浜别弄器适1出关魁词分析口动压缩索:引了廉统图 1. HX-2055 系统原理HX-2055 可以实现对内部网络和外部网络的信息抓取、归类、展现。对于外 部网络,HX-2055采用网络爬虫定时对各大行业网站、政府部门网站进行数

8、据 爬取,通过对海量数据的挖掘可以建立庞大的外网数据库,通过一流的数据整 理算法,简单、快捷、方便的展示给使用者。HX-2055也可以对内部网络进行数据的挖掘、分析、整理、展现。HX-2055通过基于局域网的网络爬虫算法,可以对政府、行业内部网站、单位内部服务器资源等数据源进行数据的抓取,包括内部网络的新政策、新闻通知、日常文 档、文件资料等。HX-2055 搜索引擎的系统体系架构如图所示:内部网用户搜索请求返回结果用户提交搜索、安全过滤飞f搜索结果排I:内部网站数据源注册、资V*L数据一爬彳行空制索数据库文件系统.邮件系统内部数据.索引模图2 HX-2055内部网络搜索系结构图引擎实现了下列

9、主要功能:(1)爬行器:爬行器根据资源描述信息对内部网中各种异构的资源信息 进行爬行,获取所有能够获得的资源信息,资源信息的格式应包括:Web 网页、 Word、 PDF、 Excel、 PPT 等格式的办公文档、各类主流数据库的表 中记录。(2)索引器:通过中文分词技术,对爬行到的资源信息进行解析,建立索引文件3)搜索:用户提交其搜索条件,搜索条件经过特定处理后,在索引文件中检索出所有满足搜索条件的资源系统构架全文检索系统统一搜索平台的总体架构采用三层(数据层、应用层和表现 层)可扩展的设计,使整个系统不受硬件平台的限制,具有良好的扩展性和可 管理性卿层觸妬)冃T】諂曲)应用层日志曹理词典理

10、数据堂护用户管理权限筲理裁据层fflSfiSirFT用诉找挾 口(TRS D泌訪BE. API )三 系统功能信息采集1、采用多线程并发搜索技术2、提供多种采集范围控制方式,包括在指定网站内,在指定域内,以及在 指定 IP 地址范围等方式。3、可以设置多种网站采集控制方式,包括采集的网页大小、超时限制等。4、提供高效更新功能,对于已经采集过的网站,更新时只采集发生变化和 新加入的资源。5、可以灵活设定采集结果的存储方式,具有开放性。中文自然语言处理1、内嵌自动分词系统,有效提高了分词准确性。2、在应用层上,提供自动分类和摘要功能;3、支持按词索引、按字索引、按关键词索引,适应不同应用环境的需求

11、;4、内嵌相似性检索技术,提供文章的相似性检索和聚类功能。全文检索功能1、支持 Web Browser/Web Server 检索方式;2、智能中文分词:采用先进的自动分词系统,根据大量的语料统计和分 析,建立了上万条的歧义排除规则,因此检索“华人”不会把仅仅包含“中华人民 共和国”的文章检索出来。3、支持结构化数据和非结构化数据的混合检索;4、允许使用文中的任意字、词、句和片段进行检索;5、全方位检索手段:与、或、非、异或;6、对数值、日期等特征字段可以进行比较和范围检索; 7、支持任意一致的通配符检索(模糊检索);8、支持多网站的全文检索 9、具备中文自动分词系统,能有效提高分词准确性10

12、、采用智能中文分词技术,建立高效索引库11、支持实时索引(1分钟内)12、支持增量式实时索引13、多线程设计,支持大量并发用户访问,每秒并发达到50个以上14、支持在结果中查询15、支持GBK、BIG5、UTF8、GB18030等编码,采用UTF8编码方式实现多语言和多文种内容的检索及展现。16、支持中文、英文和中英文混合检索17 、多样化排序,包括按抓取时间排序、按相关性排序18 、多种条件组合检索:包括标题、正文以及日期范围检索19、支持关键词逻辑表达式组合检索20、检索结果支持基于查询关键词的动态摘要21、支持检索关键词的高亮显示22、将所检索到的信息可按设定的模版显示23、检索结果模板自定义如:如文章标题、文章栏目、简介、作者、点击 率、时间以及文章类别等24、支持根据自动分类的类目进行检索25、采用 KNN、 SVM 为基础的相关性算法格式文件检索 进行检索。性能指标自动分类达到 85%以上准确率数据索引更新时间平均小于记录(每条记录 4Kb)本地检索平均响应速度小于 1 秒,亚秒级反应速度 支持不低于 50个并发检索请求G 级数据全文检索响应在毫秒之内全文检索数据库的“零”空间膨胀率(-10%20%)。T级文本数据库,一个任意词的检索都在1秒钟之内

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号