TRS搜索引擎解决方案课件

上传人:我*** 文档编号:144962659 上传时间:2020-09-14 格式:PPT 页数:47 大小:7.59MB
返回 下载 相关 举报
TRS搜索引擎解决方案课件_第1页
第1页 / 共47页
TRS搜索引擎解决方案课件_第2页
第2页 / 共47页
TRS搜索引擎解决方案课件_第3页
第3页 / 共47页
TRS搜索引擎解决方案课件_第4页
第4页 / 共47页
TRS搜索引擎解决方案课件_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《TRS搜索引擎解决方案课件》由会员分享,可在线阅读,更多相关《TRS搜索引擎解决方案课件(47页珍藏版)》请在金锄头文库上搜索。

1、TRS 搜索引擎解决方案,搜索技术和产品,综合搜索平台的需求分析,海量 高效 开放 精准 非结构化,TRS 核心技术,专注于非结构化信息处理 主要核心技术 信息检索 文本智能 内容管理 搜索和内容管理 垂直/行业搜索、企业搜索、互联网搜索 内容全生命周期管理,融合互联网搜索和企业搜索,互联网搜索和企业级搜索并非一回事,TRS领导“高端”搜索技术,海量信息处理能力 智能化信息处理能力 融合互联网搜索和企业搜索的能力 查全和查准的协调 高安全性、可靠性 高端应用伸缩扩展能力 ,TRS 企业搜索平台和应用,特色数据库采集,对于综合搜索平台而言,更多的是使用该种方式,实现资源的整合与搜索,网页采集,文

2、件系统数据加工采集,支持扫描数据采集,海量信息处理,海量信息处理的基本策略是“分布式”、“集群”、“多服务器”协同。 目前在国内只有TRS已经成功在实际客户处成功部署了多服务器集群检索系统,处理数千万以至上亿条记录信息,无论Autonomy, Verity, Baidu, Google 均没有这方面的成功案例 新华社多媒体数据库(18T,仅中文就4000万记录) 中华人民共和国门户网站(全国各级政府网站数据整合) 公安部搜索引擎系统(1.2万网站,约2000万网页),新华社多媒体数据库,全球最大中文多媒体数据库,每天支持1000万的访问次数,User Interface,Windows / L

3、inux / Unix,数据层资源整合企业搜索引擎应用,TRS DB SERVER,WebSphere / Weblogic / Tomcat / .Net Platform,TRS API / TRS JAVABEAN / TRS ADO,TRS CDS,TRS WAS,数据存储和检索,在TRS搜索引擎方案中,搜索服务所需的数据及其索引并非像其他搜索引擎以单纯的文件来进行组织和存储,而是采用类似关系数据库的管理模式,以“数据库”、“表”、“记录”、“字段”、“全文内容”及“索引”等机制来对来自不同信息源的不同类型的信息对象予以全面而有序的组织管理,这是TRS搜索引擎优于互联网搜索引擎的一大特

4、点和优势,数据库管理和存储,字段类型,TRS全文数据库支持多种不同类型的字段,它们是: DATE日期型字段 NUMBER数值型字段 CHAR字符串型字段 PHRASE短语型字段 DOCUMENT全文型字段 BIT二进制型字段,多种格式文件支持,索引模式,按字 按词 字词混合,混合模式只对具有按词索引属性的数据库的Pharse和Document字段有效 全冗余模式 :将公共部分分别在“按词”和“按字”索引中各存一份。优点是检索时直接取各自的索引即可,缺点是索引空间膨胀大 半冗余模式 :将公共部分只存储在“按词”的索引中。优点是“按词”检索时可直接取“按词”的索引即可,且索引空间膨胀小;缺点是“按

5、字”检索时要取“按字”的索引和“按词”的索引进行合并,多一次“或”运算 零冗余模式 :将公共部分单独存储。优点是索引空间膨胀小;缺点是“按字/词”检索时要取“按字/词”的索引和“公共索引”的索引进行合并,多一次“或”运算,索引技术,零空间膨胀率(-0.21) 索引分区技术(参考索引文件) 多线程并行运算技术 Cache技术(针对近期频繁访问的检索结果),检索功能,48种检索运算符 外部特征与正文内容的各种逻辑组合检索 位置检索 二次检索/渐进检索 历史检索 词根检索 大小写敏感检索 概念检索(词典),相关性排序,排序权重计算因素 文章的词频 命中词出现的位置(标题、第一段、第二段、最后一段),

6、检索技术,自动分库技术:将物理数据库转化为能自动分裂数据库的视图。可对生成的分裂视图进行装入记录和复制记录操作,结果将自动反映到其对应的物理数据库里 多库并行检索技术 多级Query-CACHE技术 基于词以及词频的bi-gram算法 索引跳跃式扫描技术,知识检索,词典 智能语言检索 简繁检索 相关词提示 拼音检索 自然语言检索(Like函数),TRS搜索集群的示意架构,数据库集群服务器示意图,TRS信息资源管理平台,配套产品: TRS全文数据库服务器(TRS Database Server) TRS全文数据库集群服务器(TRS Database Cluster) TRS数据处理工具(TRS

7、Data Processor) TRS关系数据库内容检索引擎(TRS Gateway) TRS内容发布应用服务器(TRS WAS) 各产品组合应用可实现异构环境下非结构化信息的采集、存储、检索、控制、发布和服务,并可与主流关系型数据库无缝集成。实现非结构化、半结构化和结构化数据统一管理的完善解决方案。,文本挖掘技术和产品,智能化信息处理,TRS 在业界最早推出实用化的文本挖掘技术,现已发展到4.X 版本,包括自动分类、自动聚类、自动摘要、自动标引、信息过滤和信息提取、相似性检索、短语检索、拼音检索等 新华社多媒体数据库、外交部 在863、全国搜索引擎和数据挖掘技术学术评测中均居领先地位,是产业

8、界中敢于参加并获得好成绩的代表,体现了TRS在自然语言和智能信息处理研究领域的强大“内功”,智能化分析处理TRS CKM,自动分词 自动聚类 自动分类/规则分类/混合分类 文本相似性检索(自动排重) 跨语言查重 自动摘要+主题词标引(自由词+行业主题词)(摘要和标引也可以分开用) (政治)常识校对 信息过滤 拼音、同音检索 相关短语检索 信息抽取,TRS CKM产品描述,国内外第一套成熟的中文文本挖掘技术,文本挖掘是数据挖掘的一个分支,它是进行知识管理的基础和关键技术。 TRS CKM 有效结合自然语言处理技术、人工智能技术、知识库以及统计分析技术,实现了商业化应用。 在863等多次评测中均名

9、列前茅。,内容管理技术和产品,内容服务平台,内容采集创建,网络信息采集,信息采集网关,多媒体采集,数据交换接口,内部创作接口,电子文档处理,内容管理数据存储,结构化 数据,对象 数据,非结构化 数据,内容挖掘与知识管理服务,自动分类,自动摘要,自动聚类,查重与相似性分析,过滤与知识提取,本地内容管理,本地应用集成,本地内容采集,本地内容编辑,跨媒体发布,个性化服务,版权保护,内容评估,站点管理,电子商务,个人内容桌面,内容协作平台,内容编审,监控统计,用户管理,工作流引擎,协同工作沟通,内容管理架构,内容管理架构,内容采集 Content Capture,内容存储 Content Reposi

10、tory,内容挖掘 Content Mining,内容加工 Content Processing,内容服务 Content Services,TRS内容管理主流产品,TRS INFORADAR,TRS GATEWAY,TRS API,TRS DP,TRS CKM,TRS DB SERVER,TRS CDS,TRS WCM,TRS优势特点,(1)异构资源搜索和整合,TRS能搜索各种RDBMS, 文件系统,网页等内容。其他搜索引擎不能。,(2)“安全”的搜索引擎,TRS支持内容安全性控制,特定的人只能搜索特定的内容,其他互联网搜索引擎只能进行普遍性搜索,对内容没有安全性控制。TRS是一个基于“内容

11、安全”的搜索引擎,(3)支持数据实时更新的搜索引擎,TRS支持对数据的实时更新,其他互联网搜索引擎不支持数据的实时更新。互联网搜索引擎一般有长达数个星期的数据更新周期。在数据库内部没有动态修改数据和索引的算法。不能支持数据动态更新。,(4)更高的搜索准确性和更好的搜索体验,TRS能够对不同的内容和查询需要采用不同的索引策略,如按字,按词,混合等搜索手段,按照内容的相关性而不是PageRank 获得相关性。 互联网搜索引擎采用网页的标题和PageRank 进行相关性计算,对行业搜索引擎失去效果,查询效果和准确性差 互联网搜索引擎竞价排名等商务模式破坏了行业性用户的搜索体验,(5)智能化信息处理,

12、提高信息使用价值,TRS具有领先的中文智能处理技术,如自动分类、自动摘要、自动聚类、信息过滤等技术,实现了高级数据挖掘应用。 互联网搜索引引擎在这方面还处于十分原始的阶段。必须基于大量的后台人工处理,这显然对企业和行业用户是不可能实现的。行业用户需要自主服务,自动服务。,(6)低成本下实现海量信息检索,TRS搜索引擎具有更低的硬件成本。在同样的硬件环境下可能支持更多的用户;其他互联网搜索引擎采用大量服务器群集实现对大规模用户的并发访问,但是对于一台机器上能够处理海量信息,能力很差。如TRS在新华社的应用采用4台服务器可以支持多达2000万文件的高效检索。,(7)多文种、多媒体、跨语言,TRS支

13、持多文种、多媒体、跨语言查询 TRS在外交部全球网站群,新华社多媒体数据库,奥运会官方网站具有成功的应用。,(8)超越搜索,提供完整的内容管理价值链,仅有搜索是不够的,用户需要信息的整合、采集、服务、管理等,TRS作为内容管理的领导厂商,提供全面的内容管理和内容服务;互联网搜索引擎仅仅提供搜索服务,大量工作在后台,不对用户开放,无法满足行业用户的需求 互联网搜索引擎的数据和索引组织的主要目标是提供快速的检索,数据资源很难与其他应用共享; TRS具有完备的数据管理功能,采集的数据资源实现完备的数据库管理,并提供完备的应用开发接口(包括C/C+,ADO,Javabeans等标准接口),可供其它应用

14、方便调用。,TRS高素质团队与经验,20人+的搜索产品研发队伍 10人+的顾问咨询队伍 50人+的实施与支持队伍 众多大型项目成功策划、咨询、研发、实施、培训与支持经验 公安系统搜索引擎、中国人民解放军总参谋部某部、国家发展和改革委员会、中华人民共和国中央人民政府门户网站、新华社多媒体数据库、人民日报社、中国经济网、外交部、国家统计局、国家知识产权局、最高人民法院北京市劳动和社会保障局、厦门市政府、上海市高级人民检察院、国防大学图书馆、广东省广州市图书馆、北京大学、清华大学、中国五金矿产进出口总公司、索尼(中国)、国家电网公司、浙江省电力公司、中国网通、广东移动、中国人民银行、中国证券网、香港中华法律集团、华润(集团)有限公司等等,TRS希望与您真诚合作!,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号