火车头使用说明.docx

上传人:汽*** 文档编号:544402463 上传时间:2023-12-03 格式:DOCX 页数:20 大小:1.56MB
返回 下载 相关 举报
火车头使用说明.docx_第1页
第1页 / 共20页
火车头使用说明.docx_第2页
第2页 / 共20页
火车头使用说明.docx_第3页
第3页 / 共20页
火车头使用说明.docx_第4页
第4页 / 共20页
火车头使用说明.docx_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《火车头使用说明.docx》由会员分享,可在线阅读,更多相关《火车头使用说明.docx(20页珍藏版)》请在金锄头文库上搜索。

1、 火车头使用说明别的不说了,直接开始使用。(ps:开始之前,最好把爬虫的原理了解一下)咱们用的是免费版,功能什么的很多受到限制,免费版网页只能抓到两级,而且无法定时执行任务。1、 安装完火车头后,直接双击图标打开,此时会弹出一个登录页面,什么都不要管,直接点击登录就进入了主界面,主界面如下: 你会发现它有一些内置的分组,分组下面有内置的测试任务,这里要强调一点,每个任务从上到下对应着火车头安装目录data目录下的以数字开头的文件夹,里面放着各自的数据文件,大概内置测试任务有38个,所以data目录下有对应从1到38的38个文件夹,你以后新建任务后,会自动再data目录下建立文件夹,序号依次递增

2、。2、 新建任务和分组。你可以新建分组,也可以再已有的测试分组下面建立任务,但是有一点要注意,任务不能脱离分组而存在,必须把任务存在分组里面,这里咱们新建一个名字叫做腾讯的分组。 3、 右键单击腾讯,选择新建任务,弹出新建任务对话框 4、下面我们以腾讯新闻采集为例说一下如何去配置,任务名叫做腾讯新闻 可以看到,这里分为四步,第一部就是采集网址规则(这一步就相当于爬虫里面设置种子url并且入队的过程),在出现的起始网址,添加单条网址,并点击”添加“按钮。我们在网页中,通过分析,发现国内新闻的第二页及以后都是以数字递增的方式显示的,我们现在添加等差数列形式的网址最后点击完成,查看效果起始网址的添加

3、就是种子URL的设置过程,这里可以添加多个种子URL,我这里设置了六页下面就是多级网址获取,点击添加按钮,出现如下画面(这一步相当于提取网页所有连接的过程)如果直接点击保存,相当于提取网页中所有链接,但真实情况下我们并不需要所有的链接,所以需要对链接进行过滤,可以从该选定区域提取网址,也可以对结果网址过滤,这里我们设置结果网址必须包含http:/ 这几个字是不需要的,要过滤掉,我们双击标题那一行,可以打开标题采集规则的设置界面。选择数据处理那部分的添加按钮,然后选择内容替换将_腾讯_新闻网替换为空数据处理列表就有一条记录。如果我们要做多次数据处理,可以依次的添加处理的动作。也可以对处理的次序点

4、击上图中的上下按钮进行调整。双击数据处理列表,可以对选中的记录进行编辑。添加成功的结果如下 点击确定,然后我们重新点击测试,可以发现那几个字已经没有了:我们继续设置内容,右键单击测试按钮,点击在弹出的下拉列表中选择获取源码然后点击查找,在弹出的对话框中输入查询内容:在内容的前边的代码是 ,我们再找一下后边的结束字符串。然后就可以利用前后截取的方式来采集数据了。结束字符串我们找到的是 ,然后以刚才设置标题的方法设置内容,如图点击测试,发现获取到的内容如下:别的诸如时间,作者等的获取都一样,页面内容标签定义部分的标签名可以随意设置。下面就是发布内容设置了。这里有四种方式,分别是web发布,保存到本

5、地文件,导入到自定义数据库和其它扩展,如图:这里说一下保存为本地文件和导入到自定义数据库。两种方式可以同时启用保存为的本地文件可以为txt excel html等格式,我们先选择保存为html格式,保存位置这里选择D:火车头文件保存,文件模板根据你选择保存文件的格式自动生成,文件模板位于安装目录的D:火车采集器V8SystemFileTemplate的文件夹下,文件名格式随意写,文件编码也要注意,这里选择GBK然后是导入到自定义数据库,火车头免费版只支持SQLite和access数据库,所以你要想导入数据到别的数据库,必须运用数据库发布模块,这里点击数据库发布配置管理,然后弹出来的就是数据库发

6、布模块的配置窗口,在这里进行配置点击新建这里用的MySQL数据库,点击保存模块,保存在电脑上任意位置,这里我保存在桌面,名字叫做xinwen.dbm然后点击最右边的更多-导入,把刚才的模块导入进来,会发现显示如下:手动配置数据库的连接信息,最后配置如下:最后点击保存配置,在左边配置列表回发现新增的配置,.关闭这个界面即可,此时你会发现在导入数据库部分新增了这个任务,直接选中即可,这部分就配置完成最后一部分文件保存及部分高级设置就是爬虫的一些基本参数的设置,这里不用管了。最后点击保存,整个任务就完成了,下面就是执行过程。6、执行 把任务名字的后面都选中,直接点击开始按钮,整个流程就自动执行了,如

7、图:任务执行成功后界面如下:下面就是判断此次任务执行的结果,在腾讯新闻这个任务名字右键单击,选择本地编辑任务采集数据,查看结果:可以看到所有的数据都已经存到了数据库里面,当然你得注意,这里的数据库是火车头默认的SQLite数据库,咱们配置的数据库发布模块里面的MySQL数据库的内容并不在这里,你可以用MySQL客户端工具区连接MySQL查看结果:在查看D:火车头文件保存发现所有的文件已经下载下来:这就是一个完整的抓取过程。注意:1.免费版的火车头不能进行任务调度,只能抓取最多两级页面。2.免费版的火车头只是支持SQLite和access数据库的切换,如果要是想用别的数据库,就需要上面所讲的数据库发布模块的配置3.在保存到本地文件的时候,需要模板文件,默认的模板文件存在D:火车采集器V8SystemFileTemplate下,模板文件的内容是可以改变的,至于怎么改变,看看文件内容就知道了。4.火车头不支持关键字查询,但是火车头有一个插件叫做极速搜索,里面支持关键字查询,但是默认的网站就那么几个,还不能自己制定数据源,形同鸡肋,你可以看看。5.火车头一次可以同时执行无限多个任务,只要电脑性能够高。6.火车头几乎可以抓取任何形式的网站,但是我现在对部分论坛还不知道无法抓取,像北邮论坛,你研究研究如何抓取北邮论坛,几个参考网址: http:/

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号