全文检索方案

上传人:m**** 文档编号:509622920 上传时间:2024-01-07 格式:DOCX 页数:14 大小:313.88KB
返回 下载 相关 举报
全文检索方案_第1页
第1页 / 共14页
全文检索方案_第2页
第2页 / 共14页
全文检索方案_第3页
第3页 / 共14页
全文检索方案_第4页
第4页 / 共14页
全文检索方案_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《全文检索方案》由会员分享,可在线阅读,更多相关《全文检索方案(14页珍藏版)》请在金锄头文库上搜索。

1、1全文检索系统方案1.1全文检索系统总体方案系统将采用以下全文检索流程。Folder/Share Folder with DocumentsFuzzy SearchSynonym PhraseIRMSWild-CardMulti-field FilterTerm ExtractTerm IndexWeb Site Robot/Spider By URL EntryIRMS.SearchEngineIRMS.Indexer Adapter Data Source ComposerFile ExtractorQ RDBMS -(ODBC / OLEDB/JDBC)Index DatabaseAAp

2、licctien(Ussrlnterffce)Lotus Domino R5,R6(NSF)FileNET内容管理针对企业内部的信息,包括文件服务器上的文件、网站网页、ERP等系统存 放信息的数据库信息、办公应用中的公文档案文档已经内容管理系统中流转的内 容,本系统提供了两种数据适配器来提取其中的正文内容和属性内容,形成一个 相对结构化的数据虚拟层;本系统的索引引擎(Indexer)对结构化的数据虚拟 层进行中文切分词、文件特征分析和逐步索引,以及其它索引算法,生成索引数 据库;使用者(user)在搜索页面中输入查询字串等搜索条件并提交给本系统后, 本系统的全文检索查询引擎(Searcher)

3、会在索引库中进行搜索,并将符合搜索 条件的搜索结果返回给使用者;使用者(user)可于查询结果页面,进一步链接 到信息原文查看详细内容。对于系统管理,管理员可通过相应web方式的管理程序来管理整个系统运行 环境及设置文件;并通过索引引擎(Indexer.exe)实时或定时创建索引,更新 索引数据库的内容,使检索信息维持在最新状态。1.2全文检索系统平台架构本系统基于组件化和松散耦合架构和设计,系统平台架构示意图如下:整个系统主要分为信息整合、信息萃取和服务、应用整合三个部分。/信息整合此部分主要作用是将企业内部存储于不同应用系统中的结构化信息、半结构 化信息、非结构化信息通过本系统提供的两种数

4、据适配器进行信息提取,形成一 个相对结构化的数据虚拟层,以备后期信息萃取和服务。/信息萃取和服务在信息整合层形成的相对结构化的数据虚拟层基础上,本系统将对其中的每 笔记录进行中文切分词、索引、文件特征分析、自动分类等各种演算算法处理, 形成可以提供搜索服务的索引库。用户利用本系统的搜索引擎处理提供的强大的 搜索功能,如中文同音搜索、简繁体对译、模糊搜索、同义词搜索、文章概念搜 索、分类浏览等,快速、准确、完整、及时、有效地搜索到符合自己搜索条件的 信息。/应用整合本系统还提供了完整的外部程序整合机制。所有组件均提供SDK完整开发接口,方便应用整合和应用扩展。1.2.1信息整合此部分主要提供对

5、企业内外部非结构性数 据信息源建立自动化数 据汇入功能。根据用户实 际需求,用户可以选择导 入包含 Text、Microsoft Office XML、RTF、 PDF、HTML、MHT、 AutoCAD 及 E-mail(含附件文件)等格式及文件影音附件(如影片的文件名或摘要、图片的文件名或摘 要、及文字)自动化建立索引数据,建立索引数据所处理之文字包括繁体中文、 简体中文等;同时用户可以选择导入数据库数据,如Oracle、Informix、Sybase、 MS SQL等。此外和Notes系统也已经有了无缝整合,可挂载Notes Composer对nsf库中正文及附件信息索引,在做索引的过程

6、中自动把每笔记录的权限键入索引库。本系统提供可挂载的数据适配器(Data Adapter),将异质的数据来源与数 据结构进行汇整与粹取,亦扮演将非结构的信息结构化,可以很容易地分析特殊 档案格式和管理复杂的数据源结构(如递归、巢状等)的多功能设计,以方便信 息检索与管理。以e-mail含附件为例,e-mail Adapter可解析e-mail内文,而当选 购office Adapter后,原来的e-mail Adapter即可解析office相关的附 件文件,可视需求额外购买PDF、ZIP、RAR、OCR等不同数据适配器,即可 交互搭配使用。搭配使用本系统的 TXT、Microsoft Off

7、ice、RTF、PDF、HTML、E-mail 及 FileMeta 资料提取器,将可解析 Text、Microsoft Office XML、RTF、 PDF、HTML、MHT及E-mail (含附件文件)及文件影音附档(如影片的文件名或摘要、图片的文件名或摘要、及文字)等格式,包括繁体中文、简体中文、 英文、Unicode等;使用数据库数据适配器,将可支持数据库数据汇入处理如 Oracle、Informix、Sybase、MS SQL 等。1.2.2信息萃取和服务此部分须提供对数据提取的内容所包含的信息,进行数据处理分析,包含:/分类模式建立自动分类功能。/针对非结构性数据建立词库,词库须

8、包含同音词库、同义词库、专业词 库。/自动分类机制与专业词库须具备自动学习与修正之功能以提升数据处 理准确度。/可针对不同使用层级、项目进行非结构性数据权限控管。依照使用者不 同等级提供不同权限的查询功能接口。应用本系统一系列内容分析与索引核心组件群,将汇整的内容进行断词、索 引、分类、文件特征等运算与处理,以便满足信息检索与信息管理的应用,提供 多功能全面性的数据分析能力,可针对不同情境应用加以整合,快速达到使用者 需求。同时,用户利用本系统的搜索引擎处理提供的强大的搜索功能,如中文同音 搜索、简繁体对译、模糊搜索、同义词搜索、文章概念搜索、分类浏览等,快速、 准确、完整、及时、有效地搜索到

9、符合自己搜索条件的信息。1.2.3应用整合完整外部程序整合机制一所有 组件均提供SDK完整开发接口, 方便外部整合。另外大量提供XML 的方法来进行信息源更新时的同步 以及权限的导入与检查工作。1.3全文检索系统功能特点1.3.1基本检索功能支持/素弓I库:、全选建不选|-分享文文国丘匚)|-花卷风&孔)厂浙匡我致年江西 厂如丁箜理化心)、J:场查WId/可以在查询宇符串中皮闩受辑远葺符号英文77用尹, |表录口兄L出表示卢NIJ, !表示NOTr ?英女万用字符厂二盟碧旬重统了 查调堵死设定,、每页显穴骂昊射:f 1, r招三土 W抨mI巧|住序 二r英文问型何性苑换r中艾同音r中英乂咨铅r

10、中英又同义或近似r以播商用评/支持跨数据源索引与整合搜索。将分散在File Server上的文件、远程网 站中的网页、群组软件中的资料,以及数据库中的文字与非文字纪录, 在一次搜寻条件下,整合搜寻出来。可以对近线数据、在线数据和离线 数据分别建立索引库,到时可以通过索引库的选择来控制对哪些性质的 数据进行搜索;/支持万用字符(*、?)查询。使用者可查询部分关键字及*(代表多于 一个字)或?(代表一个字)的组合。例如:输入关键词【Chin*】,会找到【China】、【Chine】、【Chinese等等。输入关键词【Chin?】,会找到【China】;/搜寻条件具有完整的布尔逻辑运算AND、OR、

11、NOT能力,支持复合式 布尔逻辑运算查询,并且可以配合多组左括号(与右括号)作关键词查 询优先级的设定,方便查询者输入布尔组合之查询条件;内建智能型快速响应模式(Smart cache)机制,可以提供同一种查询 条件之重复使用率,提高系统资源的效益。Cache储存目录记录了 Cache 档案所要放置的地址,经查询过的资料或画面,第二次再进入时,可重 复使用第一次查询结果;支持/多字段/多条件检索,提高搜索精确度;单一字段内,支持AND/OR/ NOT逻辑条件,且支持括号方式来提供条件优先权。多字段条件间,支持AND/OR/NOT逻辑条件;索引库:查词关键词,厂分岂事件区山山:厂免卷师(由北:新

12、反薮据片山切口知诅言埋窟】中国申博忡国1卑幻忸可以布吉由宰育申中侵.平罗版云夏罗号正英工丁用二点:|表录口R &表示)W 门表示NOT,坪?英艾万用字苻文件属性,间 .名:类修大 颁件t祐件扃件 标文作编文最立(GE2?1:)二MiqLi3_irLFindri.d;jout- nulXMMMi-nJJJ2?3MB全选隆不选r主题直旬查询结果设定;每页显示结果数,io r 20 r 30广凸一 ljci邮毛苗匿涕序项.T陲序 -I标殊身蚤设宁:英支讯型讯性变换厂中文同音|中错厂叩页RI巨X或近似厂中立繁苒衬译1.3.2词索引与查询功能系统中提供了传统的字索引,但是为提高查询检索的准确度,系统采用

13、自然 语言断词机制和灵活的词索引开关,用户可根据需要选择词索引或字索引。具体 功能如下:中文句子将透过智能型自动断词技术以达到词索引的效果,自动分析 与断词,并建立词索引;词索引功能通过开关灵活设置;检索字串首先通过自动断词,将其断词结果进行组合检索;提供词库编辑器,针对断词用的词库进行维护和调整;使中 文切分词更符合使用者的行业特点,提高查询的速度和准确度。该功能优势如下:/提高精确度:输入民法不会找到人民法院;/更小的索引空间:通过词索引的方式,索引数据库相对字索引需要更少的磁盘空间;同样数据量下,检索时需要的Memory更少;/检索性能更高:配合高效算法,词索引的搜索性能相对字索引平均高

14、出 3倍以上;1.3.3多国语系数据索引与查询 系统基于Unicode设计。/可支持多国语系(英文、繁简体中文、日文、韩文、Unicode等)混合 的文件的建置与查询。 可支持多种编码格式的索引,包含Big5、GB2312、Unicode、UTF-8、 EUC-JP、Shift-JIS,并支持以Unicode同时输入多国语系条件进行搜寻。利IM手m日I寸卷尬巧盟部I年匿皆强:Hi! I制鞘宣学Japanese同个数据表或一条数据库记录中可以支持多国语言混排内容;Simplified ChineseTraditional Chinese17IHIW?旦H回刨日旦口也件少史名星日l4,勺:心:,I

15、.早:y-w+i古胃1加1少壬由日色qe也丹恨回驯 盹 MHjy cijiwh三soivi qri siHKgin sin费毁?s*e u际耳i.mwnnw壮Ioiu日旦 ail胃福旱K|曰铀占JdAaAIEIHS U L5H CI5F Sffl旦W日口1生研姓己?1旱7I5I旦早曰UIN色HKH W 川鄂富:t *01出型.筋X M.M fi=1=-早HHW SE7IIIMH ME早T史#三加戋m尊 凿侧FH2MM皿P 明泓 闻刊NJ8*Etf”AKorean 一个索引数据库可以存在多国语言的不同数据;可以输入多国语言的检索条件,并使用AND、OR、NOT逻辑关系; 检索结果中可以同时显示多国语言记录;搭配多国语言同义词库,可以通过单一语言条件,得到多国语言检索结 果;1.3.4中英文模糊搜索查询功能内建中英文容错(Fu

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 活动策划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号