火车头采集器PPT演示文稿

上传人:ji****72 文档编号:51935326 上传时间:2018-08-17 格式:PPT 页数:42 大小:2.29MB
返回 下载 相关 举报
火车头采集器PPT演示文稿_第1页
第1页 / 共42页
火车头采集器PPT演示文稿_第2页
第2页 / 共42页
火车头采集器PPT演示文稿_第3页
第3页 / 共42页
火车头采集器PPT演示文稿_第4页
第4页 / 共42页
火车头采集器PPT演示文稿_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《火车头采集器PPT演示文稿》由会员分享,可在线阅读,更多相关《火车头采集器PPT演示文稿(42页珍藏版)》请在金锄头文库上搜索。

1、火车头采集器火车头采集器使用流程说明 使用流程说明目录目录n 一、软件安装n 二、新建站点n 三、采集网址n 四、采集内容n 五、发布内容n 六、任务采集n 七、导出数据需要安装软件: () WAMP5-v1.7.4 () phpcms () LocoySpiderV2009SP4_Build20090807(火车头采集器)注:每次采集前需要將wamp5打开后,在用火车头采集。一、软件安装一、软件安装户外装备网 1、wamp5_1.7.4安装完成后,解压缩phpcms后 将phpcms1剪切出来放到D:wampwww目录下 ,将phpcms1改名为phpcms。2、打开WAMP5,启动PHP

2、 settings栏目中的 short open tag。3、安装PHP,输入 http:/localhost/phpcms/install.php进行 。4、解压LocoySpiderV2009SP4_Build20090807 将Module文件下的phpcms2008-090109文件下 的locoy.php复制到D:wampwwwphpcms下。安装部分完成一、软件安装一、软件安装打开火车头软件(LocoySpider.exe) 界面如下图:二、新建站点二、新建站点第一步:新建站点(如右图)二、新建站点二、新建站点第二步:点击“新建站点”后出现如下界面。填写站点名和站点网址点击“更新”

3、三、采集网址三、采集网址新建好的站点会排列在窗口左侧“站点&任务列表”中。右击新建好的站点,点击“ 从该站点新建任务”,出现如下界面。以本列表为例:http:/ 1、在选择目标站时,最好选择文章更新快,文章质量高(少广告词、图片、链接 、视频、flash等),内容丰富并且在业界有一定权威性的站点。 2、过于滞后的文章不要采集。(例如:08年、09年的文章) 3、在选择列表的过程中最好以站点为单位,不要以某个列表为单位,这样采集效 率会事半功倍。 4、在选择目标站时尽量不要选择动态页,多选择可以用数字或字母(*)代替的 静态页。 5、在采集过程中遇到不需要采集的文章,可以通过“不得包含”功能将其

4、过滤掉 。三、采集网址三、采集网址完成采集网址步骤之后,点击“开始测试网址采集”按钮。会出现如下界面:三、采集网址三、采集网址在检查采集连接无误的情况下,点击“返回修改设置”后,出现如下界面:三、采集网址三、采集网址选择“第二步:采集内容规则”后,出现如下界面。四、采集内容四、采集内容四、采集内容四、采集内容选择“添加标签”后,出现如下界面。將“标题”、 “资讯内容”、“内容摘要”、“信息关键词”、“meta关键词”、 “meta描述”、“责任编辑”、“信息来源”添加到标签名中,將其他不需要的标签 名称删除,出现如下界面。四、采集内容四、采集内容下面分别说明“标题”、“内容摘要”、“信息关键词

5、”、“meta关键词”、 “meta描述”、“责任编辑”、“信息来源”、“资讯内容”各个标签的采集规则 。四、采集内容四、采集内容采集页页面以http:/ 第一、标题 查看本页面“源文件”搜索title代码,找到文章内容部分。如下图:注释:一般情况下检索都可以采集到我们需要的标题标签,但由于 这篇文章此代码中设计到其他网站logo及列表分类不确定信息,所以选择 中内容来代替。如果没有合适字段,可利用“内容排 除”选项进行筛选。双击上图窗口中的“标题”标签,將“源代码”中对应的标题开始代码和结束代码分 别输入到开始字符段和结束字符段中,点击确定,标题标签设置完成。四、采集内容四、采集内容第二、资

6、讯内容四、采集内容四、采集内容查看本页面“源文件”,找到文章内容部分。如下图:1、双击上图窗口中的“资讯内容”标签,將“源代码”中对应的资讯内容开始代 码和结束代码分别输入到开始字符段和结束字符段中。2、勾选“HTML标签排除”中的“链接”、“层”、“Span”、“图象”、“脚本 ”选项。3、选择“内容排除”中的添加项,將资讯内容代码中的无用代码和文本添加在此 选项中,过滤废物信息。4、点击确定,资讯内容标签设置完成。 如下图:四、采集内容四、采集内容四、采集内容四、采集内容四、采集内容四、采集内容注释: 在资讯内容采集过程中最主要的是对垃圾信息的删除,其中需要注意的有以下几项 :1、广告语

7、(例如:2010年建材行业十大评选活动圆满落幕,电话:01062298529 )2、特殊标签 (例如:标签,大部分标签会在“HTML标签排除”中删除。)3、网站logo (例如:【慧聪 建材网】)4、文章中铭感文字 (例如:点击下一页、点击查看更多图片、视频、责任编辑、评论、【热点导读】 、【相关新闻】等与文章正文无关的文字。)四、采集内容四、采集内容第三、内容描述、meta描述查看本页面“源文件” 搜索description代码,找到文章描述部分。如下图:四、采集内容四、采集内容將“源代码”中对应的描述开始代码和结束代码分别输入到开始字符段和结束字符 段中,点击确定,内容描述和meta描述标

8、签设置完成。注释:有些文章描述部分设有大量广告语或与本文无关的内容,这样的文章描述我 们不给予采集。可以将标题的采集方法复制到描述采集中。四、采集内容四、采集内容第四、信息关键词、meta关键词查看本页面“源文件” 搜索keywords代码,找到文章关键词部分。如下图:四、采集内容四、采集内容將“源代码”中对应的关键词开始代码和结束代码分别输入到开始字符段和结束字 符段中,点击确定,信息关键词和meta关键词标签设置完成。注释:有些文章关键词部分设有大量广告语或与本文无关的内容,这样的文章关键 词我们不给予采集。可以将标题的采集方法复制到关键词采集中。四、采集内容四、采集内容第五、责任编辑双击

9、责任编辑标签,选择“自定义固定格式的数据”,在固定的字符串选项中填写 自己的名称,点击确定,责任编辑设定完成。四、采集内容四、采集内容第六、信息来源双击责任编辑标签,选择“自定义固定格式的数据”,在固定的字符串选项中填写 信息来源,点击确定,信息来源设定完成。四、采集内容四、采集内容第七、分页在“页面内容分页区域/样式设置”中将分页部分代码输入其中,用(*)代替即 可。如下图: (注释:各站的分页代码不同,需要具体分析,采集分页的文章在我们后台将成 为一篇通篇文章。建议少采集分页多的文章,影响用户体验。)四、采集内容四、采集内容规则填写完成后,返回至第一步“测试网址采集”。双击所采集到的任一文

10、章地址 。则会自己弹出如下界面。(注释:建议多测试几篇文章,减少垃圾代码出现。)采集内容阶段完成,点击进入发布内容设置五、发布内容五、发布内容1、启动以下两项,点击“定义web在线发布到网站全局设置”。五、发布内容五、发布内容2、点击添加,选择phpcms2008 新闻发布模块 3、在“网站/cms根地址”:输入http:/localhost/phpcms/ 4、点击“在火车内置浏览器中登录”五、发布内容五、发布内容5、在地址栏输入:http:/localhost/phpcms/admin 6、输入用户名phpcms密码phpcms五、发布内容五、发布内容7、登录点击“确认登录发布成功后即可关

11、闭该窗口”,关掉此窗口。获得五、发布内容五、发布内容8、登录本地后台(在浏览器中输入:http:/localhost/phpcms/admin。账号密码phpcms)9、选择“系统设置”中的“添加栏目”,点击下一步五、发布内容五、发布内容10、输入栏目名称、栏目目录,点击确定,在本地后台会出现对应列表。11、点击获取列表后便可等对应ID,选择此次采集的对应列表。五、发布内容五、发布内容12、在配置名中输入要采集的栏目名称,点击保存配置。13、设置完成后点击保存。发布内容部分结束六、任务采集六、任务采集将刚刚编写好的规则保存后,程序则会自动跳转到主界面。右键点击设置好的任 务,选择开始采集。在采

12、集完成后系统会自动提醒采集完成。七、导出数据七、导出数据采集数据在火车头Data文件中。双击mdb格式文件,右键选择content选项,导出为Excel格式。七、导出数据七、导出数据建议将采集文档都放在一个文件夹里,有利于后续工作进行。七、导出数据七、导出数据打开导出的Excel文档,将ID、已采、已发、缩略图、PageUrl、处 理中等无关数据删除,只保留“标题”、 “资讯内容”、“内容摘要”、 “信息关键词”、“meta关键词”、“meta描述”、“责任编辑”、“信息来源” 。在Excel中对采集文章进行最后筛选修改: 1、删除内容缺失的文章。 2、删除所有标题中带有(图)(组图)(视频)的文章。 3、检查资讯内容中错乱代码,如有发现错误利用ctrl+F对进行批量替换。七、导出数据七、导出数据导入数据库 打开后台,点击内容管理资讯信息管理批量导入资讯。选择需要导入采集信息的列表名称,将修改好的采集文档上传数据库,点击导入 。导出数据部分完成户外装备网

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号