IDOL技术介绍-20151110112600.doc

资源描述

《IDOL技术介绍-20151110112600.doc》由会员分享，可在线阅读，更多相关《IDOL技术介绍-20151110112600.doc（41页珍藏版）》请在金锄头文库上搜索。

1、1. 系统功能方案根据企业智能搜索系统功能需求，结合我们的项目经验，我们进行一一对应的分析。1.1. 信息采集信息采集加工平台是整个系统的基础平台，它是整个平台系统对外提供内容服务的源泉，主要从各种数据源（包括文件系统、数据库、内部其他系统以及独立信息源）采集信息。根据项目需求，针对不同的数据格式，采用不同的手段与方式，真正将各数据孤岛的信息采集过来，用于资源平台的整合与使用。如下图所示：系统采用惠普提供的多种连接器，分别针对多种异构的数据源，例如互联网系统采用互联网连接器来采集数据，数据库连接器负责采集数据库的数据，此外还有文件系统连接器等。HP连接器具有如下优点：自动采集，配置好之后自动

2、运行，同时监控数据源变化，同步更新数据；能够处理基本常见的所有文件格式，能够采集基本常见的所有数据源；设计成熟，通过各数据源厂商接口认证，兼容性极强；对采集的数据格式要求极低，能够自动分析并处理、格式化各种数据；集成安全权限，能够从不同的数据源继承原有的安全权限设置；相应的采集方式主要包括以下详细内容：1.1.1 文件采集HP的文件系统连接器（File System Connector）将所有常用的电子文档文件一网打尽，它支持1000多种文件格式，包括txt 、html 、rtf 、office 文档、 pdf 、MP3 、 MPEG 、SWF 、AVI 、VOD 、DAT 、tiff

3、、书生 sep 电子文件等各种格式文档的自动扫描、自动数据采集和入库，甚至包括各种压缩文件以及压缩嵌套文件，如zip，rar，tar等，对于命名错误或者后缀错误的文档，它还能够自动的识别编码和语言类型，文档格式。其主要功能还包括：l 按照目录形式或者列表形式对文档进行分类组织，分类层次可以任意定制；l 对目录下文档进行自动扫描，并将目录作为文档分类标引项自动提取；l 对于一些标准格式文档，可以自动提取一些特征值，如标题、作者、单位、摘要等作为元数据标引项；l 支持抓取文档里的内嵌对象，例如Word文件中嵌入的visio图；l 支持 Excel 、XML 、Txt 等多种数据源的导入，导入后

4、可自动解析数据源中的知识条目；l 实现对于文档正文内容的自动采集，转换编码，并与元数据合并形成标准的中间内容格式，索引到内容处理引擎IDOL Server中；l 支持文件去重 : 可以根据文件内容或属性字段进行自动排重；其操作流程为：文档目录文档列表分类、特征标引项的自动提取文档内容的自动抓取文档特征标引项入库、内容索引完成配置流程为：如下为嵌套的压缩文件抓取：抓取后的结果：同时也支持抓取文档里面的内嵌文档抓取（如word文件里面嵌入visio的图片文件，word的图文框等；）如下为内嵌visio以及xls的内容：如下为抓取的效果：同时HP还支持对国内特殊文件格式的抓取，如CEB格式文件的内容

5、抓取：抓取出来的效果如下：HP文件采集器支持文件自动探测采集，如无后缀名文件采集，后缀错误文件采集，不规范文件采集，单个不限容量文件采集等。不规范命名文件等文件格式的抓取示例如下：1.1.2 网络信息采集HttpConnector是HP针对网站信息的采集工具，它依据采集配置主动抓取网站上的页面内容，然后将内容转换成为标准格式传输到IDOL Server进行索引。它能按照用户设定的信息采集条件，自动采集多种类型网站和内容，包括：l 多源头采集（新闻，论坛，博客等）；l 多语种采集（中文，英文，德文，法文，俄文，日文等）；l 多类型采集（网页，文档，音视频等）；l 帐号登录采集（需要用户名密码登录

6、的站点）；l 定向内容采集（按照某内容主题采集）；HttpConnector在采集过程中，它将自动分析这个页面中的相关链接，然后继续抓取相关的页面。这些链接页面的判断是基于抓取器中相关配置，把需要的内容抓取过来，无用的信息排除掉。同时它还可以实现采集的预处理，包括排重处理，分类标引等，与IDOL Indextask组件结合起来进行多任务处理，如下所示：HttpConnector的主要功能如下：功能功能描述定向站点范围采集支持采集指定URL站点的网页内容及对应的URL和附件多种格式网页采集支持多种网页格式(HTML、ASP、JSP、PHP等等)网站采集多种类型站点采集支持采集各种新闻、论坛、博客

7、、贴吧、微博。附件类型采集支持多种文档附件(ZIP、Doc、Xls、Pdf、RAR)采集支持自动采集网页的附件文件并按文件采集的要求进行分析更新采集可自动判断网页变化，更新采集网页，可以定义分钟、小时、天等循环频率支持记录采集历史，对已采集过的网页不会进行重复采集和分析断点续传采集系统关闭或意外中断，重启后可以在断点处开始采集，不需要全部重新采集，并已经采集的内容不会丢失认证采集支持session设置采集，支持用户密码认证采集灵活参数定义.可以按照域名采集，可以按照站点采集，按照层次采集，.支持采集url定义规则，支持定义屏蔽多种文件(avi,mp3)格式采集规则.可以定义采集线程数和层次深度

8、.可以定义采集线程时间间隔（防止目标站点屏蔽）.可以定义采集网页总数和网页文件大小.可以配置采集器按照url进行数据排重网页内容提取可通过配置模板有效地提取网页中的信息:.网页标题，链接标题.网页正文.网页时间.新闻来源（如果有）.网站中文名称针对统计数据发布网站（表格样式）：.可以保留统计发布网页格式，从而保证对应显示关系网页内容过滤可以有效地过滤网页中的信息:.网页头、尾信息.广告信息.索引页面（新闻列表和博客索引页）.其他无用信息网页快照当原始网页删除后，系统可以通过平台网页快照浏览原文数据索引支持将采集到的信息永久性存成本地文件或存入索引库，形成本地资料库，不受原网站删除内容的影响。数

9、据索引后可以根据网页标题和正文内容生成自动摘要和分类多语言信息采集支持中文简体、中文繁体、英采集,自动判断对方网站的语言。支持常见的 GB2312,GBK,GB18030,BIG5,UTF8 ASCII字符集的站点.采集输出形式 .文本文件.搜索引擎系统.数据库系统网络隔离应用针对一些内外网隔离的环境，采集系统支持人工导入外网采集数据到内网目录后，系统自动入库处理。应用界面.图形化用户管理界面.同步查看采集统计数据.同步查看采集线程的状态.及时查看采集日志1.1.3 数据库采集很多业务系统都是基于一些关系数据库来处理的，如Oracle，SQL Server，Sybase等等。数据资源的采集，也

10、需要将这些业务系统的资源有机的整合起来，将所有的业务数据融入整个内容资源中去。需要注意的是，对于已经建立的业务系统，在不能改变源数据库的数据结构、数据内容和工作方式的情况下，对数据库中的资源进行关联，采集平台可以自动将源数据库中数据进行转换，抓取，形成相关资源库，自动对元数据的更新进行同步，然后在统一的浏览平台下进行查询、预览、应用。HP提供了ODBC Connector，来对各种关系数据库如SQL server、Sybase、DB2、GreenPlum、主流国产数据库等数据库进行自动数据采集和加载入库。同时也提供了Oracle Connector专门针对Oracle做高性能的采集处理。ODB

11、C Connector采用ODBC方式连接，是成熟的数据接口，适用于大部分的数据库环境，支持多种字段类型，具备通用性、广泛性；Oracle Connector采用Oracle OLE DB与Oracle直接相连，更具效率，同时支持ORACLE的一些特性，对ORACLE 9i/10g/11g等都完整的满足；如下为采集流程：如下为处理模式：以下以Oracle数据库为例子，介绍具体采集功能： l 增量采集，第一次完全信息采集之后， OracleConnector即不再对所有数据进行采集，Connector会根据采集日志状态，来对新增、删除或者修改的数据库信息进行增量同步。Connector支持用户自

12、定义采集策略和规则，如表字段、视图内容、多表联合、循环间隔、采集时间等对数据库进行信息采集。l 自动采集，OracleConnector可以作为系统进程或者后台服务运行，按照用户设定好的规则，自动完成采集任务。Connector支持SQL语句的调用，可使用Select、Where、Like等语句对采集范围进行限制。l OracleConnector采用Oracle方式工作，使采集工作更有效率。l 支持大字段格式，OracleConnector均支持数据库中的大字段内容，支持对数据库中存放的各类文档（如PDF、Office、Html等）的内容抽取和处理。l 支持多表联合，可以从多个关联表中整合数

13、据条目并进行数据采集。l 支持并发采集，用户可自定义多个采集任务同时进行，提高采集效率。l 支持分布式采集，用户可根据数据库分布情况，部署分布式的OracleConnector模块，Connector完成采集后的数据通过网络接口索引至中心引擎。1.1.4 FileNet系统采集FileNET 是文档管理市场的传统领导者，它的网站内容管理套件包括Panagon 内容服务（PCS）、Panagon 网络发布者（PWP）、Panagon 网络服务（PWS）和Panagon 电子流程。FileNET的内容管理套件定位在内容管理的全部解决方案，它贯穿了整个内容的生命周期，从创造到审批、发布和分配等等。惠

14、普提供了FileNet P8 Connector，来抓取Panagon FileNet库的原始格式内容，同时也包括FileNet library的相关元数据信息，然后将其转化为惠普独特的IDX文件结构，索引到核心内容处理引擎IDOL Server中。FileNet P8 Connector可以采集本地的或者远程的多个数据集合，还可以进行分布式的处理，根据用户的需求配置索引结构。如下所示：分布式的处理结构：1.1.5 实体抽取实体抽取（Eduction）是一个专业的数据抽取工具，基于模式匹配的语法规则和字典，能够从多种数据实体中抽出相关的信息内容出来，如人名、地名、机构名称、电话号码、电子邮件等

15、。实际使用过程中，Eduction后台可以使用“字典”和“语法”，两者也可以结合起来，通过相关定义，来流水线作业，对需要的实体进行捕捉，提取，转换以及存储，主要包括：l 基于词典的内容抽取：如抓取某个产品的产地信息，事先预定义一个词典，Eduction自动发现含有相同产地标签的词汇，从而提取出来；l 基于表达式的内容抽取：通过正则表达式，定义需要抓取的文本字符串或者数字字符串，将相关内容提取出来，如抓取手机，座机联系号码等；l 基于概念匹配的内容抽取定义一定的语言环境，系统基于概念匹配的智能理解，抓取相关概念的内容，如抓取地址信息等；Eduction可以作为一个独立的服务运行，通过批处理的方式批量的处理IDX索引文件，但Eduction通常一般作为indextasks的任务来处理，在文档通过indextasks流程处理时，将相关的文档内容按照Eduction配置的规则，进行元数据项的特征提取。接着后续indextasks任务将文档内容以及元数据项集成索引到IDOL Server中去，提供给前台的应用搜索和分

展开阅读全文

IDOL技术介绍-20151110112600.doc

最新文档