【精选资料】火车头采集器菜鸟使用手册

上传人:xins****2008 文档编号:106270528 上传时间:2019-10-14 格式:DOC 页数:56 大小:4.33MB
返回 下载 相关 举报
【精选资料】火车头采集器菜鸟使用手册_第1页
第1页 / 共56页
【精选资料】火车头采集器菜鸟使用手册_第2页
第2页 / 共56页
【精选资料】火车头采集器菜鸟使用手册_第3页
第3页 / 共56页
【精选资料】火车头采集器菜鸟使用手册_第4页
第4页 / 共56页
【精选资料】火车头采集器菜鸟使用手册_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《【精选资料】火车头采集器菜鸟使用手册》由会员分享,可在线阅读,更多相关《【精选资料】火车头采集器菜鸟使用手册(56页珍藏版)》请在金锄头文库上搜索。

1、火车头 采集教程火车头采集器使用说明下载地址:http:/ 我们下载免费版。注意:想用火车,就必须得安装.NET FrameWork 2.0框架或更高版本.net framework 2.0下载地址: 那么,火车我们也下载到本地了,。net框架,我们也安装了。那么,我们把新下载的火车采集软件,解压下。看到一些密密麻麻乱七八糟的东西及文件。那么。上图中,用红线圈住的LocoySpider.exe 是主程序,我们双击打开。ps:这里说下,上图中,有好多任务是我自己用的。新程序,并没有那么多。我们会看到火车的界面,看起来非常复杂,是吧? 呵呵,其实并没有那么复杂,对于新手,有好多东西是用不到的。下边

2、会一一的讲解。我们先补习一下,火车头采集软件的工作原理。因为我们浏览到的网页,最后都是通过html输出的,那么意味着,我们可以查看到html的源码,那么火车头为什么会采集到内容呢?我们看下网站的基本结构。 -这些蓝色的东西,对于新手,我们不需要知道!网页的标题 -红色的是网页的标题。如下图(1)内容 在这个和之间的,是网站的内容部分。如下图(2) -这里是网站的结尾。如果想查看一个网页的html源文件,之需要点击浏览器上的 查看,源文件即可。(1)(2)那么,我们知道了一个网页最基本的架构,那么就好理解火车采集的基本原理了火车采集软件是怎么采集的呢?我们配置好火车头采集规则,什么叫采集规则?就

3、是我们查看网页的源文件,看看整个网页的源码,内容部分的开始标签,和结束标签,这样火车才能知道,我们要采集这个页面的哪个部分,比如下边我们演示的。网页的标题内容我们想要采集“内容”那么就要告诉火车采集器,内容开始标签是,结束标签就是明白了么?呃。估计是我的表达能力不够好。so。我们看下边的实例,在好好巩固下就OK。OK。那么我们开始一步一步教大家设置采集规则。首先第一个。我们的目标站。discuz!x1.5架构的网站。http:/ http:/ 这个页面的文章列表是那些,所以我们要告诉火车!)这里有两种方式,新手嘛,我也不知道适合哪种。我们就用默认的吧,第一种我们点击向导添加然后出现下图。其中有

4、4个选项卡,如果我们只采集目标站点的一个文章列表http:/ 看下边的图其中1,是目标网站的地址其中2,是火车的通配符(就是某个东西识别的东西)其中3,是间隔数已经补零(下边一一讲解)其中4,数字变化。下边讲解其中5,字母变化。那么。看下图图中在地址栏填写的是 http:/ 这个。那么,这是什么意思呢? 我们打开 http:/ 这个地址,然后点击下一页发现地址变成了 http:/ 那么我们在点击下一页,就是第三页,发现地址变成了 http:/ 那么在点击第四页。想必大家也知道变成什么了吧? 那么第一页:http:/ 这个,其中1用火车的通配符(*)替换掉。意思就是,只有1在变化。在看下边其中数

5、字变化,从1到5.意思就是 从地址栏 http:/ 1到5,就是下边这样的。http:/ http:/ - 完成。如下图到这里,我们的地址就添加完成了。那么下边,我们来设置区域列表。我们先设置第一个。“文章内容页面地址必须包含。不得包含。”我们随便点开http:/ 这个网址中的两篇文章,看下URL。就是文章地址。http:/ http:/ 红色部分在变动。那么,文章内容必须包含。我们写 http:/ 这样就可以,那么我们点击“开始测试网址采集”这个时候,我们点开网站前边的+号发现,其实网址已经采集成功了。其中的并不需要填写。这是为什么呢?因为我们采集的页面 http:/ 中的文章地址,就是 h

6、ttp:/ 红色部分都会变动。或者有可能变动。所以我们加上通配符,所以我们不用填写这个,也可以采集成功。那么,为了让大家更直白的了解火车,我们还是写一下。那么我们打开 http:/ 这个地址,在页面中,点击右键,选择“查看源文件”(因为不好截图。)发现上边的东西出现,都是一些猥琐的html代码。我们怎么定义文章地址的区域呢?看下图我们复制页面中的“筛选”然后在页面源码中查找下,那么自然,下边的,就是文章地址的区域咯。那么我们在这里,填写什么呢?我们要填写一个“唯一”的东西。就是这个页面独有的一个,并且在文章地址上方的一个代码。如上图。我们选择这段 代码!然后我们复制 这段代码,在我们打开的源文件中,向下查找看,看看有没有相同的。好消息。没有相同了。那么我们在填写 那么这里怎么填写呢?其实一样。我们给下看看源码。我们向上查找下。OK

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号