locoy火车头采集教程与实例

上传人:洪易 文档编号:39808776 上传时间:2018-05-19 格式:DOC 页数:16 大小:3.28MB
返回 下载 相关 举报
locoy火车头采集教程与实例_第1页
第1页 / 共16页
locoy火车头采集教程与实例_第2页
第2页 / 共16页
locoy火车头采集教程与实例_第3页
第3页 / 共16页
locoy火车头采集教程与实例_第4页
第4页 / 共16页
locoy火车头采集教程与实例_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《locoy火车头采集教程与实例》由会员分享,可在线阅读,更多相关《locoy火车头采集教程与实例(16页珍藏版)》请在金锄头文库上搜索。

1、 火车头采集教程火车头采集基本流程:火车头采集基本流程:系统设置新建站点新建任务采集网址采集内容发布内容抓数据。1.新建站点:新建站点:据你自己的需求为任务建立统一的站点,以方便管理。点击菜单上:站点新建站点 打开如下图:可以填写站点名,站点地址,网址深度(0,代表根据地址直接采内容。1,代表根据地址采内容地址,然后根据内容地址采内容。2,代表根据地址采列表地址,然后根据列表地址采内容地址,再根据内容地址采内容。 ) ,站点描述。2.新建任务:新建任务:任务是采集器采集数据时的基本工作单元,它一定是建立在站点中的。采集器通过运行任务来采集发布数据。任务工作的步骤总体可以分为三步:采网址,采内容

2、,发内容。一个任务的运行可以任意选择哪几步。而采集器又可以同时运行多个任务(默认设置是同时最多运行 3 个任务) 。选择站点 点击右键选择“从该站点新建任务” 。任务的编辑界面如图:采集器的使用最主要的就是对任务的设置。而采集数据可以分为两步,第一步是:采网址,第二步:采内容。3.采集网址:采集网址:采网址,就是从列表页中提取出内容页的地址。采网址,就是从列表页中提取出内容页的地址。从页面自动分析得到地址连接页面自动分析得到地址连接:以http:/ ,点击右边的“编辑标签编辑标签”按钮 打开如下图:复制这段代码到“内容标签编辑框内容标签编辑框”的“开始字符串处开始字符串处”。 “”是“”后面第

3、一次出现的地方。复制“”到“结束字符串结束字符串”处。如图:如果发现标题中含有“”像这样的 HTML 代码,可以在标签设置里将这些没用的代码排除。设置如图:在此对话框中可以设置 标签内容必须包含什么标签内容必须包含什么和标签内容不得包含什么标签内容不得包含什么。上面的 (*)可以代表为任何字符。在这里还可以设置汉英翻译汉英翻译,简繁体互转:简繁体互转:火车采集器可以将抓取的汉字翻译成英语,方便一些朋友翻译用或做国外网站同时支持将简体和繁体进行转化,方便简繁体用户交流 汉译英,简体转繁体使用很简单,只要在标签内选中即可. 如果如果“使用正则匹配模式使用正则匹配模式”采集数据采集数据 :正则表达式

4、很强大,利用它我们可以获得一定格式的数据,比如网址,E-mail 地址,数字,字母等等可喜的是,从 3.2 版开始,火车采集器就支持正则规则的编写了,这给喜欢用正则来实现不同需求的朋友带来福音。火车采集器里支持两种正则,一个纯正则,一个参数正则。我们下边分开讲一下:1.纯正则:纯正则:在标签中用正则表达式采内容的格式是这样:开始代码(?正则表达式)结束代码,其中在开始代码和结束代码中如有需要转义的字符就要用转义。比如我们要获取火车论坛的版块,我们从首页获取,正则可以这样写然后就可以获得我们需要的版块名称了。2.参数正则:参数正则:这个不算是正则,和网址采集那块的参数使用原理是一样的,可以对采到

5、的内容进行组合。输入框两边都不得为空,后边的组合结果 参数 N 是按匹配内容的顺序来写的,我们还是以 http:/ http:/ 地址中的图片。查看该页的 HTML 源代码。在源代码中可以找到页面中的问题部分。如图:发现“是唯一的 ,复制这段代码到“内容标签编辑框内容标签编辑框”的“开始字符串处开始字符串处”。 “”是“”后面第一次出现的地方。复制“”到“结束字符串”处。火车采集器的所有版本均支持下载图片。这里所说的图片是 源代码里的有img 标签的图片地址。所以只要您采集的源代码里有这这样的图片代码,采集器会将其中的图片下载到本地。如果是一个直接的图片地址,如http:/ ,采集器是会做为文

6、件下载。下载文件是需要收费版本支持。图片的下载设置如下:1.在内容页标签编辑框中选中下载图片。2.任意格式文件下载及保存设置收费版本的程序支持任意文件的下载。具体是使用时选中探测文件并下载探测文件并下载即可。 需要注意的是:这个功能可以下载论坛附件或要下载站的文件,比如论坛附件下载地址是 d.asp?id=1,那么只要在下载文件地必须包含里写上 d.asp 就可以下载源码里包含这个字符串链接中的附件了。 注意这个在有些站是需要你登陆后才可以下载。所以有时下载不了,请注意您是否登陆或是有权限下载那些文件。 还有的情况是你获取的登陆信息不正确,相当于没登陆.也会导致下载不成功。如果使用单一的地址,

7、比如直接是一个文件的地址,程序会自动去下载并判断文件类型。 如果是多个文件实际地址请用分隔符 #|# 相连,程序会分别进行下载 在下载前请做好测试。具体在规则测试那里可以看到下载结果。3.设置保存目录:文件的命名:为了防止同一目录下保存太多的文件,采集器支持随机目录保存方式,默认按时间按一定的规则生成目录保存文件。 看图,注意这里的绿色符号都是用特殊含义的,yyyy 代表是年,如最后产生的就是 2009,MM 是月,其它类推,如果你要命名为 yyyy,则需要对绿色字符进行转义,即yyyy,前一个斜杠即可.文件保存地址也一样.可以设置同步(边下内容边下图片),异步(下完内容在下图片)。设置好图片

8、保存目录后,便可以点击“确定”按钮后点“测试”按钮可以把图片下载到本地来,如图:测试之后得到的图片保存在DataTestOnly 文件下。采集保存到 你设置的目录下面。看下图:在上面也可以选择“使用自定义固定格式的数据使用自定义固定格式的数据” 具体怎么实现这这里不讲了 ,因为很少选择它。“页面内容标签定义页面内容标签定义”有个有个“同时采集多页页面同时采集多页页面“ 什么意思呢什么意思呢 ?看下图:看下图:点击“同时采集多页页面“ 按钮 便进入如下图:何为多页?本来我们是从网址采集那块采集到网址,再对这个网址(也叫默认页)进行采集。但是有时有许多信息他并不在一个页面上,而是和这个默认页有一定

9、的关系,要不他网址在默认页里,要不他网址和默认页网址有联系。我们就这个问题来讲一下具体的解决办法。这里有两种途径获得第三个网址,我们先讲从默认页网址替换得到新网址。我们以http:/ 这个页面为例,比如我们要获得全部的”剧情简介“,就得进入一下页,刚好这两页有关系,”剧情简介“页面的地址是 http:/ introduction ,这里可以使用普通替换,也可以使用正则。我们看一下。这样就可以获得所需要的了。当然这里组合也可以有多个$的,比如$1,$2。下边我们说一下用默认页源代码中获得网址的方法来处理上边的网址,这样就可以获得和上边一样的效果了。通过上面的 标题和图片标签设置 并测试之后没有问

10、题了,还不能确定对于其他的内容地址是可行的,因此你要多测试几个内容页地址,测试其它地址和上面一样。测试完之后便可以进行发布内容了。5.发布内容:发布内容:如下图:方式一,方式三,方式四 都需要收费,在这里便不讲了。导出采集数据为 txt,csv,sql 格式:除了能将采集的数据 Web 发布到网站,直接导入数据库,采集器还可以将数据保存到本地。目前采集器支持的文件格式有:1.csv 您只需要选择一下 csv 文件夹的目录,采集器会生成一个 csv 文件,文件里的标签次序和在任务编辑里的标签排序是一致的。 2.html 您需要指定 html 模板,该模板的内容和 web 发布模块的方式基本一致。比如标签:标题将会被替换成实际采集的内容。 3.txt 程序将所有的记录保存在一个 txt 文本里,每个标签之间用换行间隔。注意:本地文件的编码需要注意,默认的保存方式是和采集源一样的编码。如果您指定了某种编码,请将html 文件也保存成相应的编码文件。 请按下图进行设置。设置完之后便可以采数据了。6.6.抓数据:抓数据:点击该站点下要执行的任务 ,右击选择“开始任务采集” 便出现如图:当运行完之后便产生一个文件,打开文件便是抓取下来的内容。如果你抓取了图片,便会出现 :图片保存在你设置的图片路径。看下图:

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 研究报告 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号