军犬网络采集系统用户手册30页

上传人:文库****9 文档编号:175225538 上传时间:2021-03-22 格式:DOC 页数:30 大小:878KB
返回 下载 相关 举报
军犬网络采集系统用户手册30页_第1页
第1页 / 共30页
军犬网络采集系统用户手册30页_第2页
第2页 / 共30页
军犬网络采集系统用户手册30页_第3页
第3页 / 共30页
军犬网络采集系统用户手册30页_第4页
第4页 / 共30页
军犬网络采集系统用户手册30页_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《军犬网络采集系统用户手册30页》由会员分享,可在线阅读,更多相关《军犬网络采集系统用户手册30页(30页珍藏版)》请在金锄头文库上搜索。

1、互联网信息采集系统军犬互联网信息采集系统用户手册V5.0第一章:系统介绍31.1软件简介31.2互联网信息采集与挖掘31.3互联网采集系统流程图31.4系统应用领域:41.5 软件特点41.6 系统配置要求131.7 系统性能13第二章:使用手册142.1综合设置142.1.1数据库管理142.1.2表单管理142.1.3频道管理182.1.4模板管理192.2信息采集192.2.1站点基本属性192.2.2提交访问数据202.2.3站点链接预览212.2.4 采集过滤222.2.5 分页模板222.2.6 附件采集设置232.2.7新闻自动识别232.2.8字段提取设置242.2.9 字段采

2、后处理252.3站点管理252.3.1 采集站点管理252.3.2扫描采集源252.3.3采集日志262.4 信息管理262.4.1信息管理262.4.2附件管理272.4.3记录导入272.4.4信息导出282.5信息发布282.5.1登录发布服务器282.5.2获取发布权限的信息292.5.3新建发布表单发布映射292.5.4发布表单映射管理292.5.5发布频道映射管理30第一章:系统介绍1.1软件简介信息采集是指利用计算机软件技术,针对定制的目标数据源,实时进行信息采集、抽取、挖掘、处理,从而为各种信息服务系统提供数据输入的整个过程。军犬信息采集专家是一款基于人工智能的自动学习技术,功

3、能强大、简单实用的互联网信息采集与监控软件。1.2互联网信息采集与挖掘要求从互联网上对特定目标数据源或不特定目标数据源进行采集与监控,并对信息进行结构化抽取保存为本地结构化数据库,然后按业务流程需求与其它模块结合,导入与应用并服务于到电子行业平台。互联网数据采集与挖掘技术是指利用计算机软件技术,针对定制的目标数据源,实时进行信息采集、抽取、挖掘、处理,从而为各种信息服务系统提供数据输入,并按业务所需,进行数据发布、分析的整个过程。1.3互联网采集系统流程图第一步:确定采集任务。第二步:每个采集任务,我们有多个目标数据源可供采集。第三步:针对不同的目标数据源,进行不同的采集配置,以确保能采集到数

4、据。第四步:调度采集任务,与目标站点同步更新,增量采集。第五步:采集到数据结果,完成数据异构到同构的过程。第六步:通过发布服务器,将数据发布到应用平台。1.4系统应用领域:1、搜索引擎与垂直搜索2、综合门户与行业门户3、电子政务与电子商务4、知识管理与知识共享5、企业竞争情报系统6、BI商业智能系统7、信息咨询与信息增值8、信息安全和信息监控1.5 软件特点(1)、过滤干净,智能化抽取正文,且图文关联图:采集的目标源图:采集后“干净”的正文结果(2)、数据导出接口丰富,可以将数据导出成各种主流关系型数据结构。(3)、配置简单对于新闻资讯采集,只需输入待采集目标网站的地址或某个主题页面地址,软件

5、即会自动学习网站的风格,并自动提取网站的资讯,无需配置模板,目标网站风格发生变化,软件自动学习。对于数据采集软件提供了通俗易懂的站点配置向导,维护人员稍加培训即可配置出任何的信息采集。对于复杂的采集过程,通过一张采集卡脚本即可实现信息的自动采集与监控。 图:输入“网址”,完成配置工作图:支持关键字采集,直接输入关键字,一步设置输入“关键字”,完成配置工作(4)、所采即所得,所采即可见图:所采即所得,所采即可见(5)、增量采集与自动更新增加采集:对于初次采集目标网站,软件支持完全采集;而对于已采集过的站点支持增量采集。 支持自动更新:自动检测站点是否发生更新,并不会遗漏任何一个重要的信息。 (6

6、)、采集结果自动排重不是利用简单的规则判断,而是利用内容的相似性进行排重判断,准确性高,不会因为标题或内容的少许变化而产生漏判,即使把标题进行了改头换面,系统也会正确判定。(7)、内置强大的信息监控可以通过一个关键字广域监控互联网上任何一个站点上的相关信息。也可以通过设置监控频道监控任何站点所采集到含有关键字的信息。对于数值字段可以设置监控误差监控数值出现在一定范围内的信息。信息监控达到字段级。您可以对任何一个采集目标网站设置监控属性,监控周期达到了秒级。对于发生变化的信息可以在短时间内采集到本地。图:独有的监控功能,可能对采集后的结果进行进一步监控与过滤强大的站点管理工具可以对所有采集对象进

7、行集中管理和各种操作图:对所有采集对象进行集中管理和各种操作图:随心所欲自定义导航与分类图:综全的选项配置,提升采集的性能图:对采集后的结果可以马上进行修改与编辑(8)、支持多种编码支持多种网站的信息的编码,GBK、BIG5、UNICODE、UTF8,软件会自动转换成GBK码进行统一的处理。软件即会自动识别网站的组织结构,自动识别网站的编码。 表单管理,随心所欲自定义表单,方便采集不同的内容,如采集软件用单独的表单,采集图片用图片表单。(9)、信息导入导出随心所欲提供信息导入导出与其它软件可作无缝连接 ,如CRM OA 软件提供有强大的信息记录导入导出功能,您可以对任何一个频道、一条记录进行导

8、入与导出。可以导成Excel/Access等,也可以直接导到指定的数据库。与信息发布服务器结合使用可以将信息发布到任何一个地方。 (10)、支持阅读模板任何一种信息类型,软件都会自动创建一个阅读模板方便了您快速阅读;任何信息您可以对任何一种信息表单定制一款漂亮的阅读模板,也可以对任何一个频道设置不同的阅读模板。 (11)、支持多页面内容重组对于目标数据源的一篇文章在目标网站上分页显示,系统能自动对其重组.软件运行稳定、采集速度快、占用系统资源少历经多次改造的软件采集底层模块运行稳定、采集速度快,点用系统资源少。可多线程并发运行,而不占有过多的系统资源。采集速度快到瞬间到位。软件完全可以实现7*

9、24小时不间断无人值守的信息采集。更多细节功能有待于您在使用中去体验。 (12)、其它特点列表:、支持多种语言:支持简体中文、繁体中文、英文、日文、韩文等多国语言、支持多种站点类型:包括html与rss、支持登录、验证后采集、软件支持需要登录与需要验证码的网站信息采集,采集过程完全仿人工。 、支持附件采集包括图片附件采集、多媒体附件采集、音视频附件采集、附件与正文自动映射与关联、完全结构化抽取将网页的非结构化数据抽取成特定的结构化信息数据。网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如

10、:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。 、数据保存到本地,您可以随时查阅信息。 采集到信息自动保存到本地数据库,您可以随时查阅信息。 、多线层、多任务、支持海量数据采集10、软件实用、易用、功能强大11、可移植、可扩展、可定制1.6 系统配置要求 需要WindowsNT4/ Windows 2000 Server 或更新的操作系统。 需要 Microsoft SQL Server 7/ 2000或其它ODBC接口 硬件平台:intel xeon 1G 以上CPU,1

11、000M 以上RAM,硬盘空间40GM 以上1.7 系统性能l 支持多线程采集。l 单机在数据采集在G级以上。l 数据与数据源同步更新小于10秒级。l 数据同步发布小于10秒级。第二章:使用手册2.1综合设置2.1.1数据库管理新建数据库通过“系统(S)”主菜单下的“新建数据库”功能菜单,您可以创建一个全新的信息采集与管理数据库。新建的数据库,默认会创建一个新闻表单,该表单主要用于文章、新闻等资讯信息管理,该表单不允被删除。我们建议:您在新建数据库时希望能将数据库文件存储在与操作系统不同的驱动盘下,这样数据库中的信息内容会更安全一些。备份数据库通过备份数据库的功能,您可以将当前正在使用的数据库

12、压缩并备份到另一个目录下。以备以后的使用。压缩数据库由于桌面版的软件版本使用了微软的ACCESS数据库,该数据库在您删除记录时不会自动释放已删除记录所占用的空间。所以需要您不定期地对当前正在使用的数据库进行压缩,以减少数据库占用硬盘资源的空间。对于SQL Server版本的软件,则无需使用压缩数据库的功能。软件也将该功能屏蔽。2.1.2表单管理表单的概念互联网信息采编发系统中的表单等同于数据库中的表。通俗地说需要为每种信息类型创建一个存储空间。不同的是为了能够对数据库中的所有表单记录进行统一的管理,需要在各个表单中预置一些字段,通常这些字段含以下几个部分:显示控制信息字段: 密码字段、文字颜色

13、字段、文字背景颜色字段、显示图标字段后续跟踪信息字段:信息来源地址字段频道信息字段:频道信息,监控频道信息 创建表单下面以创建一个图书管理表单为例,逐步向您说明如何创建一个属于自己的管理表单。找到主菜单栏中的“工具”=系统表单管理菜单,在弹出的在表单管理器中点击“新建表单”按钮。在“表单标题”编辑框中输入“图书表单”,在“表单名称”编辑框中输入“tblBookSheet”。注意:如果“表单名称”或“表单标题”为空将不能成功地创建表单。 点击“保存”按钮,这时系统会提示您已成功地创建了一个名称“图书表单”的表单,并在图书表单下下挂三个字段“记录编号”、“频道名称”、“源文地址”。这个三个字段是软

14、件中对一个表单中任何一条记录进行管理的必要的字段。您不可删除或更改名称或属性。记录编号用于标识表单中任何一条记录的唯一的标识。频道名称用于标识该记录从属于哪个频道;而源文地址则用于标识信息来源于何处。表单标题该字段用于通俗易懂地标示表单。必须输入,我们建议您表单标题做到整个数据库是唯一的。表单名称该字段用于在数据库中创建对应表单的名称,该字段的值不能与数据库中其它的表单名称重复需要在数据库中唯一。字段值长度不能超过20个汉字(40个英文字母),命名规则同Windows中的文件命名规则相同。可以取与表单标题相同的名称,但建议采用tblXXXSheet作为命名规范。阅读模板该字段用于标识该表单的信息内容阅读模板的路径,可以是文件路径名称如:e:Quickreaderreadmodeltblbooksheet.html,也可以是网络上的某个路径名如:http:/ Files采集软件QuickReader,那么该相对路径相当于cPrograme Files采集软件QuickReaderreadmodeltblbooksheet.html)如果没有该表单对应的阅读模板,“阅读模板”字段可以不输

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号