数据库全文检索方案建议书

上传人:桔**** 文档编号:564762981 上传时间:2022-07-31 格式:DOCX 页数:20 大小:419.28KB
返回 下载 相关 举报
数据库全文检索方案建议书_第1页
第1页 / 共20页
数据库全文检索方案建议书_第2页
第2页 / 共20页
数据库全文检索方案建议书_第3页
第3页 / 共20页
数据库全文检索方案建议书_第4页
第4页 / 共20页
数据库全文检索方案建议书_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《数据库全文检索方案建议书》由会员分享,可在线阅读,更多相关《数据库全文检索方案建议书(20页珍藏版)》请在金锄头文库上搜索。

1、厦门巨龙软件工程公司数据库全文检索系统项目建议书百度在线网络技术(北京)有限公司B (Beijing) Co., Ltd.2005年百度公司版权所有, 2005本文档涉及百度公司机密未经百度公司的书面允许,不得对此文档进行复制或传播www. _目录1 概述 31.1 现状分析31.2 提供检索服务的必要性31.3 搜索技术需求说明42 解决方案建议52.1 建设目标52.2 系统建设原则52.3 系统结构62.3.1 信息导入子系统72.3.2 信息索引子系统82.3.3 信息检索服务子系统82.3.4 信息管理子系统 102.3.5 开发接口102.4 核心技术 112.5 性能133 系统

2、运行平台133.1 网络运行环境153.2 硬件运行平台153.3 软件运行平台154 服务体系15百IW_1 概述1.1 现状分析厦门巨龙软件工程公司是一家专业从事软件开发、系统集成、咨询服务和技术服 务的国家级重点高新技术企业;致力于政府信息化、公安信息化、企业信息化建设;。 各个系统数据繁多,结构化数据和非结构化数据都有,是一个综合信息平台。信息存 储在多个数据库中,随着业务量增长,信息量持续高速增长,数据量庞大(百万级), 数据管理的复杂度大幅增加,特别是对数据库检索提出了更高要求,仅由商业数据库 自身带有的检索功能,随着数据量的增加是远远不能满足用户需求的。目前数据库检 索的存在问题

3、如下:1. 数据库自身技术存在缺陷不擅长文本字段检索,不支持两个以上单词复合检索2. 数据库系统性能限制在大数据量,多用户进行查询操作时,效率非常低下 检索请求占用数据库大量资源,产生雪崩效应,数据库性能急剧下降3. 对中文分词处理商业数据库本身不具备分词的技术,在检索的准确性方面难以保障。4. 数据库检索不能针对大对象检索。对于数据库中存储的BLOB字段的二进制流的文件,数据库没有检索功能。即对非结构化数据不支持检索。百度全文检索系统采用先进的中文分词技术,支持数据量大,访问量高,性能高 稳定性强,效率高,数据实时同步,能很好为用户提供性能优异的检索服务。1.2 提供检索服务的必要性信息只有

4、成功的传递到使用者手中,才能真是体现其价值。因此信息开发和利用 包括两个重要环节:信息的积累和有效传递,二者缺一不可。所以在注重信息积累的www. _同时,也要提供查找信息的便利手段,实现信息有效传递,从而完善信息的开发和利用环节。/数据整合信息的不断积累造成信息量庞大,并且,信息类型种类繁多。所有各种信息都要为用户服务。所以作为信息传递之最有效的方式检索系统,要能对多重信息源 进行整合后,提供检索功能,以确保用户在最短的时间能找到他想要的信息/提高用户检索体验,最大限度方便用户信息量总在不断增长,日常工作繁忙,事务众多,在浩瀚的数据中,你是否曾为 找不到某个文件而耗费了大量时间?又或者因为查

5、找速度太慢,而放弃?只需一 个专业的检索,这些烦恼就可迎刃而解。1.3搜索技术需求说明1、良好的可扩展性。未来扩展所查询的数据库的内容时,代价最小。2、能够提供自定义的输出控制,如结果读取条数、摘要类型等。3、提供同义词的自定义接口和格式。4、提供对多文档的支持,包括 Word, Excel, PPT, PDF, txt, HTML等。5、提供相关开发接口。6、多种数据源:多数据库,用户检索时以统一的形式体现。7、数据同步方式,要求数据可以实时索引;即数据变化发送到检索系统后,检索 系统可以立即反映出来。8、检索响应速度:1 秒内返回搜索结果。9、大数据量,大并发用户数www. _2解决方案建

6、议2.1 建设目标为了提高用户查检信息的速度与效率,建议采用先进的搜索引擎技术建设业务信 息检索平台,提供一个集中、灵活的信息检索入口。该软件设计上遵循开放、兼容、高扩展性、高安全性的原则。从而使整个系统结构合理,技术先进,易于扩展,既能满足目前的信息服务需求,又能符合发展的要求。对软件的投资要考虑到今后的发展,不能使用落后的产品与技术,避免投资的浪 费;百度作为世界一流的信息检索与传递技术公司,可以保证全文检索系统在技术上 长期的先进性。检索方便易用,符合用户搜索习惯支持千万级数据量 保证检索信息全面,及时,准确 检索速度快,响应时间短 检索系统稳定,支持大并发用户2.2 系统建设原则搜索引

7、擎系统,采用先进的数学模型和智能化的检索方式,建立一个安全、稳定、 准确、及时的内容检索系统。整个系统在总体设计上遵循开放、可扩展、经济、安全 的原则,从而使整个系统结构合理,技术先进,易于扩展,既能满足当前的业务数据 处理要求,又能符合长期发展的需要。 外挂式原则:系统采用外挂式模式,信息获取功能由全网内容搜索引擎系统 处理,减轻用户服务器压力。 先进性原则:软件的投资要考虑到今后的发展,不能使用落后的产品与技术, 避免投资的浪费;在系统软件选型、开发技术上,达到国内、外行业先进水 平。 兼容性原则:本系统在产品选型与开发技术上都选择了完全支持 JAVA 或JAVA 产品和技术,在兼容性上好

8、过同类产品的性能和技术。同时,对整个方百厦 www. _ 案中的其他子系统在数据处理和网络的稳定性上没有任何影响。经济性原则:本系统在平台架构、技术选择上具有很高的先进性、可扩充性、 开放性,从而极大的增加了系统生命周期,使得经济性原则得以保证。 易维护性原则:整套系统的数据维护简单,容易操作,完全通过 WEB 方式 完成。降低维护的技术难度,也减少了人为隐患的发生。2.3 系统结构全文检索系统建立在多层(Multi-Tier)开放式的架构上。需要检索系统能够实现 实时监控数据库等系统的数据库中的数据变化,并获取变化信息,对获取到的数据进 行分词后建立索引,提供高效的检索服务。并整合到系统管理

9、平台中,配合管理员的 权限分配和管理来实现用户的分权限检索。系统架构图如下:Xml+JC parser)索引&谿4 (ijidex server JW就索引库I主要有四个子系统组成:信息导入系统、信息索引子系统、信息检索服务子系统和系统管理子系统,如下图所示:数据源应用系统通过百度网事通全文检索系统解决方案,为厦门巨龙软件工程公司综合信息服务 系统的多类型海量信息数据提供了高速和准确的响应,数据实时更新,完美实现了该 系统作为厦门巨龙软件工程公司内外网信息交互共享平台的作用。2.3.1信息导入子系统信息导入子系统处理数据库中数据,信息导入模块将这些数据读取出来,调用检索系统API交给检索核心模

10、块。DB3采集 模块I XML附件传严本系统可以实时同步索引数据,当源数据发生变化时,比如数据的增加、删除和修改等操作反映到搜索系统后,可以立即体现到检索结果上。百厦www. _数据导入模块有两个工作模式:一个是初始化模式,这种模式下将历史数据全部 导入搜索系统;另一个模式是监控模式,这种模式下扫描数据变化 (UPDATE/INSERT/DELETE),将这些变化的信息读取后送给搜索核心处理。就是说 在数据库的信息变化后,检索系统的索引数据也对应变化。2.3.2信息索引子系统信息索引子系统负责对信息进行智能分词,并建立索引库。 信息索引子系统支持智能分词,高效索引。按照检索要求灵活定制索引库数

11、据结构, 支持对数据更新的多种操作,如:增加、修改和删除,进行增量索引。 支持数据更新的实时索引。支持千万量级数据索引。2.3.3信息检索服务子系统信息检索服务子系统提供检索服务,它接受用户的查询请求,并根据高效的优化 算法从索引库中提取出符合条件的记录。本系统包括检索页面,检索处理模块、检索 结果显示以及检索结果到详细内容页面的连接。系统结构图:本系统提供了两个接口,XML接口和JAVA API接口。当为 B/S 结构时,可以调用 java api 接口。检索条件和检索结果页面可以嵌入到 b/s 系统中。百度.当为C/S结构时,直接调用xml接口,检索条件和检索结果页面可以嵌入到c/s 系统

12、中。/简单检索页面展示普通检索页面提供便捷的查询方式,这种检索在标题和内容中查找符合条件的信 息。/高级检索页面展示组合检索组合检索,用户可以灵活地选择自己的查询条件,控制检索结果的显示风格,如每页显示结 果记录数。/检索结果页面展示Bai 百厦om本次检耒划您找到与检验相关的页面共有 隨苓1动谊物鉉:痘局关于对氓出口肉类便用检验迄章、磴殓合榕标识-检疫佥梏:斥签和罢医卫主证4隸弯关问幾的遐卿所属频道行 政法规139.99%.俄出口二呂体肉均须在臀部中上部加盖由區家局统一刻制的带有區家局注册编号、生产和检验:日期的检疫验讫章,不准再加 盖其他标记.但在同一条生产线上八经捡疫合格但滲符合对俄出口

13、条件而用于内销的二 http:/www. 11own. net. cn/cme/template/i tem_i town. html?ci d=1257578 - 1996_8_14.尿家翦检爲关于印裳冬出口玩異检验诲关埶过#我岀昨纸玩貝斋检检验项目荻缺陷泊类卜的逼知所属频道:行政法规99. 99%四月十五日至十九日国家商检局在江苏扬州召开了,淫国出口玩具检验、监管工作会谡#全国十三节、省级局、尢个市级局的四 十五名同志琴加了会第眷会谶央定:(-)出口玩具的检龜要从原料抓起丄要注意 http :/iiZdms/ templatetein_i.t.flwn. html?&i d=1258ic5

14、99 - 1991-6-11弟.遽彖费检岗我于下寒畸进口祗床检验萱理规閤和出口禺电仪醐品检脸苣蹙规定的通划所厘频道:行政注规199.禽进一歩落煲飞商检法旅,加强进出口机床检验管理工作,总结交流经验4国家商检局于矢月二十五日至董月二十尢日在福連漳州 召开了丫金国进出口机床检验工務蹲.现将魏通过的进口机斥检验筲理规 http. i town. net. cn/cmemplate/i tem_i Iwn. htmi?ci d= 1260384199r2T4.凰家薔检局茯干不柄检尺等检验、鉴定业务收.缓标准的邇知所雇频道:行政法规199.99%根据喘国家计委防财政部关于发布进出口商品检验鉴定收翊法及收费标淮的通知恥(计祁格订洗4旳4号)中的有矣规定厂经硏 究决定,木材检尺等检验、鉴定业务暂按哆下标淮收费:亍、木材检尺毎立.http :i/www. itown. net.?.cn/cm5/templatej.tem_itawn. htmlci dlESTSSST - 1994-11-检索结果页面示例显示结果需要显示字段:标题,相关度,摘要,时间。 显示结果排序:相关度,时间升降序。关键词的反显(高亮):查询关键词在标题中以特殊颜色显示,进一步帮助增加界面 的友好。可以选择模糊查询,比如配置两个或多个词为同义词,检索任一词时,查到含有所有 这些同义词的信息。2.3.4信息管理子系统百

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号