信息采集和数据抓取管理用户使用手册

上传人:cjc****537 文档编号:47352243 上传时间:2018-07-01 格式:DOC 页数:38 大小:1.95MB
返回 下载 相关 举报
信息采集和数据抓取管理用户使用手册_第1页
第1页 / 共38页
信息采集和数据抓取管理用户使用手册_第2页
第2页 / 共38页
信息采集和数据抓取管理用户使用手册_第3页
第3页 / 共38页
信息采集和数据抓取管理用户使用手册_第4页
第4页 / 共38页
信息采集和数据抓取管理用户使用手册_第5页
第5页 / 共38页
点击查看更多>>
资源描述

《信息采集和数据抓取管理用户使用手册》由会员分享,可在线阅读,更多相关《信息采集和数据抓取管理用户使用手册(38页珍藏版)》请在金锄头文库上搜索。

1、 信息采集和数据抓取管理信息采集和数据抓取管理用户使用手册用户使用手册目 录1.信息采集系统的功能说明.41.1 信息采集系统概述.41.2 信息采集系统主要功能特点 .42. 信息采集系统的使用说明.62.1 信息采集中的任务设置.62.1.1 导入模板.72.1.2 添加任务.82.1.3 修改任务.242.1.4 删除任务.242.1.5 启用任务和停用任务.242.1.6 设置计划.242.1.7 设置模板.252.1.8 采集记录管理.252.2 任务控制台.262.3 任务日志 .272.4 任务模版 .282.5 回收站 .283. 数据抓取管理的功能说明.303.1 数据抓取管

2、理概述.303.2 任务设置.303.3 任务控制台.363.4 任务日志 .373.5 回收站 .371 1.信息采集系统的功能说明1.1 信息采集系统概述信息采集系统概述信息采集系统是为企业中的信息采集人员方便从不同的 Internet 站点获取所需的文章信息而定做的系统。此系统可以提供在最短的时间内,帮您把您所关注的 Internet 站点上最新的文章实时采集并根据您的要求提取标题、发布时间、详细内容等页面中的有用信息存储在本地的数据库中,同时在进行分类和统一格式后,第一时间之内传递给最需要它的终端用户,用户可以方便地进行各种查询。并保持所跟踪网站的文章资讯信息自动与后台同步更新,而且所

3、有文章将以您所定制的方式展现给用户,使得用户可以方便的预览到最新的社会动态。同时还可以通过我们的网站综合管理平台把文章及时发布更新,从而将网络传媒的文章实时性推向了极致。1.2 信息采集系统主要功能特点信息采集系统主要功能特点信息采集系统中的可智能性、可定制、高扩展性的采集技术保证最快最多的收集互联网信息,为用户提供最准确、最广泛、最具时效性的信息提供了坚实基础。它所具备如下主要功能:强大的信息采集能力强大的信息采集能力: 此系统功能针对专业用户所要求的信息搜索深度、采集精度和抓取速度等进行了专门的优化,采用了分布式多线程并发指令执行体系结构,可以把采集目标的文字或者图片或者连接地址的目标文件

4、都可以采集到我们自己的网站上。智能化信息提取技术智能化信息提取技术:当用户在最短时间内获取了其需要的海量的信息页面,其处理工作也就可想而知了,此系统功能不但能在瞬间获取你所要的页面同时能快速同步的进行页面分析提取。具体特点如下:支持按位置提取、按关键字提取和按表单提取等多种不同的智能化信息提取技术,保证对不同网站构建技术的信息提取通用性;支持对信息页面的标识,及对信息页面中用户关注的信息内容字段的精确定义,使得信息提取能够高效地获取用户所需的内容,并以结构化的数据项形式直接存入数据库,具有开放性;信息提取不依赖于具体的信息内容,支持多个不同信息类型的不同采集任务同时运行;提供快捷的方式使得操作

5、人员能够对该任务的提取结果进行浏览;方便化的信息管理技术;此系统提供定时性的任务采集技术,不需要用户手动的进行采集。同时还提供文章信息的方便管理,使文章实时性的发布,保证文章的实效性。2 2. 信息采集系统的使用说明信息采集系统主要是应用在我们的网站综合管理平台中,在使用此功能前,必须确保此站点中含有相应的栏目文章源。然后在网站综合管理平台的网站管理目录下的信息采集管理栏目中进行文章采集的任务设置。信息采集管理栏目中有五个子栏目,分别是:任务设置、任务控制台、计划管理、任务日志、任务模板。任务设置子栏目中主要实现的是采集文章信息的相关设置;任务控制台子栏目中主要实现的是任务的启动与停止;计划管

6、理子栏目主要实现的是设置采集任务的定时采集文章计划;任务日志子栏目中主要时记录采集任务执行的操作日志、任务模板子栏目主要实现对制定的任务模板的存放以及管理。接下来我们从每一个子栏目开始逐一进行详细的说明。2.1 信息采集中的任务设置信息采集中的任务设置在网站管理目录页面中,点击信息采集管理栏目下的子栏目【任务设置】 ,进入其页面如图(2-1)。图 2-1在其页面的任务队列中列出了所有设置的采集任务的详细信息。这些信息包括采集任务的名称、任务状态、放入到指定栏目的栏目名称、采集地址、采集/扫描条数以及操作。同时在其页面中有九个功能设置项,分别是:导入模板、添加任务、删除任务、启用任务、停用任务、

7、设置计划、修改任务、采集记录管理、设置模板。接下来我们分别做一介绍。2.1.1 导入模板导入模板在本系统中提供了设置采集模板功能,文章采集者可以将一些设置好的采集任务定制成模板。当以后再使用时,直接导入就可以了。具体导入操作如下:点击按钮,进入配置页面如图(2-2)。图 2-2【任务名称:】为导入的任务所定义的名称。【导入内容放入:】在此处可以选择采集下来的文章所放置的栏目文章源。【选取任务模板:】当有定制的任务模板时,会在此处显示,信息采集者可以选择使用。当这三项设置完后,点击,此时任务模板就导入成功了。2.1.2 添加任务添加任务当信息采集者需要添加新的采集任务时,可以点击,在弹出的页面中

8、添加采集任务。文章采集的任务设置分为四步(基础、列表页、内容页、附加) ,填写任务时必须逐步填写。其中每一步中凡是有带符号的填写项都为必填项。2.1.2.1 基础信息基础信息在建立采集任务的第一步基础信息页面中,其需要填写的项如图(2-3)所示。其中每一项功能如下:(我们先介绍采集文章列表页面文章我们先介绍采集文章列表页面文章)图 2-3【任务名称】:本次文章采集任务的任务名称。当此任务在“启用”状态下,执行采集任务时,会执行此项任务;当在“停用”状态下,执行采集任务时,此项任务不执行。【采集内容放入】:在此处可以选择把采集下来的文章放到那个栏目文章源中,栏目文章源的选择是根据用户的需求来定。

9、选择时点击,会弹出一个选择栏目文章源页面,如图(2-4)。在其页面中选择所要的栏目文章源,然后点击。执行完采集任务后,所采集的文章就直接存放到指定的栏目文章源中了。图 2-4【采集列表类型】:设置所要采集的文章类型,此处有两种选择类型,一种是采集文章列表页面,例如新浪网站上的文章栏目页面。另一种是 RSS 链接,这种采集列表类型采集的是 RSS 格式的 XML 链接,例如新浪网站中的 RSS频道(http:/ 【采集列表地址:】此地址是采集某个网站中某个栏目下的文章所在的页面地址,此处地址的填写是和【采集列表类型】中选择的文章类型一一对应的。例如当选择了文章列表页面类型时,我们可以以新浪网站为

10、例,选择采集其站中的文章栏目中的文章,把该栏目页面的链接地址填写到采集列表地址栏中;如果选择了 RSS 链接类型时,我们以新浪网站中的 RSS 频道为例,选择科技文章栏目下的焦点文章,把其 RSS 格式的 XML 链接地址填写到采集列表地址栏中。当填入了地址以后,可以点击按钮进行预览所要采集的文章列表。【任务详述】:此处是填写关于此项采集任务的基本概况信息。【包含关键词】:在此处填入所要采集的文章的标题或正文中所设置的关键词,当采集时,会把包含此关键词的文章内容采集下来。【不包含关键词】:当采集者需要屏蔽带有某些关键词的文章时,只要把这些关键词填入其中,采集文章时,具有这些关键词的文章就会不被

11、采集。【内容位置】:此处有两个选项,一种是把采集下来的文章内容存入到本地数据库。一种是把采集的文章直接链接到文章来源,不在本地保存文章内容。【每次最多抓取】:在此处可以选择你每次所要采集文章的条数。当所需的项目设置完后,点击,然后进入第二步列表页的设置。2.1.2.2 列表页列表页在第二步列表页的设置页面中如图(2-5),主要是对信息采集者所采集的特定文章列表部分的定位,此定位是通过此页面的源代码中的特定标记来设定的。需要注意的是:这些标记的选取必须是能够唯一的标识所采集的文章列表。下来我们做一详细的介绍。图 2-5【任务名称】:此处显示的名称是在第一步中定义的任务的名称。【列表提取方式:】此处有两个选项,自动提取和从页面上采集,当选择自动提取时,系统会自动把文章列表页面中的所有文章采集下来。当选择从页面上采集 ,会采集你所锁定的文章列表。选择

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 经济/贸易/财会 > 经济学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号