八爪鱼采集器判断条件的使用方法

上传人:s9****2 文档编号:559602248 上传时间:2023-10-22 格式:DOCX 页数:13 大小:381.15KB
返回 下载 相关 举报
八爪鱼采集器判断条件的使用方法_第1页
第1页 / 共13页
八爪鱼采集器判断条件的使用方法_第2页
第2页 / 共13页
八爪鱼采集器判断条件的使用方法_第3页
第3页 / 共13页
八爪鱼采集器判断条件的使用方法_第4页
第4页 / 共13页
八爪鱼采集器判断条件的使用方法_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《八爪鱼采集器判断条件的使用方法》由会员分享,可在线阅读,更多相关《八爪鱼采集器判断条件的使用方法(13页珍藏版)》请在金锄头文库上搜索。

1、八爪鱼大数据让数抵脏手可及八爪鱼 v7 判断条件功能的使用本教程为大家讲解判断条件的使用,首先讲解何时需要使用判断条件。常见情景:1、判断某一条件(如关键词)是否存在,存在就采集不存在则不采。例:采集京东商品信 息,只想采集自营商品。则可以通过分支判断是否为自营商品,是则采集,不是则不采。2、要采集的数据有多种情况,网页源码存在多种样式,需分开收集。例:网页正文有的是 图片有的文字,两者形式的数据提取方法不同。此时通过分支判断功能判断是图片还是文字, 然后转到不到分支里进行提取数据。判断条件功能页面介绍:判断条件-图1:功能页面113ttiItta1卜、DttV什么时候执行分支:可设置出现的某

2、个特殊字眼(文本)或某个元素执行该分支。该文本或 元素只在某一情况下会出现,若设置的字眼或元素不唯一则会导致进入的分支与设想的不同41八爪鱼大数据让数抵脏手可型不判断,总是执行该分支:默认选中此项,一般是最右边的分支为此项,若最左边的分支设 置为此项则永远不会执行右边的分支,且最右边的分支不管设置什么都会执行,即如果所有 条件都不满足时将会执行最右边的分支步骤当前页面包含文本:选中后,在下方文本框中填入进入本分支的特殊文本(字眼),八爪鱼将会在当前全页面查找这个文本,找到则执行该分支,反之不执行当前循环项包含文本:选中后,在下方文本框中填入进入本分支的特殊文本,八爪鱼将会在 当前循环项中找这个

3、文本,找到则执行该分支,反之不执行。此项需与循环配套使用当前页面包含元素:选中后,在下方文本框中填入进入本分支的特殊元素(Xpath路径),八爪鱼将会在当前全页面找这个元素,找到则执行该分支,反之不执行当前循环项包含元素:选中后,在下方文本框中填入进入本分支的特殊元素( XPath 路径),八爪鱼将会在当前循环项中找这个元素,找到则执行该分支,反之不执行此项需与循环配套 使用在Iframe里,IframeXpath :同点击元素的元素在Iframe里,IframeXpath,需要填入Iframe的Xpath,不是定位元素的Xpath,是Iframe的Xpath (该操作很少使用,无必 要请莫用

4、)A八爪鱼大数撼操作示例:采集要求:采集论坛第一页的所有“发布”贴,其余不采集示例网址:http:/ 操作步骤:1、先按常规流程制作采集流程,当遇到需要设置判断条件的步骤时,点击右上角“流程”。 (完成打开网页和循环点击等操作后进入到详情页,此时需要设置判断条件,判断该页面是 否包含“发布”这个关键词)2、进入流程设计页面后,从流程图左侧工具栏拖入一个“判断条件”进入流程图中,放到 需要判断的位置。ifi选择页面元戏區血酉尊耳o_Efcn(2)腾讯云腾讯云免费套賓30多款产品免费判断条件-图2:在流程图左侧,选中“判断条件”任劳.血昭眄 me品KTlHr:-rl 麻 JL !:C判断条件-图3

5、:将“判断条件”拖入流程图中3、设置判断条件(该条件应具有唯一性),本示例中采用的判断方式为“当前页面包含文本”(采用何种判断方式诸位请根据实际情况灵活运用)。在矩形框中输入文字“发布”作为判断依据。然后点击“确定”保存,至此该分支的判断条件设置完毕。Ps :默认对左侧 分支设置判断条件,满足条件时则执行该分支内的操作。让数抵融手可录拓?曲 Q秽y甜土卫壬:,膵夺仅URLMiC軽迅云吉処DiKUZ!宝啟册杆融买由申轴询酪页面7T,媲,BS: S7LC 回擁:A虞布1蛇何堆决手fiWfeURL恤态*有利于提砸霖引驴收5馥就圃判断条件-图4:选中左侧条件分支八爪鱼大数撼让数据幅手可及C兰I前卫曲赳

6、含文本O命殍判断条件-图5:对左侧分支进行判断条件设置判断条件-图6:输入判断依据dJr1Z、亲件廿豈i擅瞬理釧用相価程奶到上競此册 * Ji4、设置其他操作(如点击元素,提取数据等等),本示例中直接进行数据的提取,无其他操作,用户可根据需求设置。此外,因采集要求是只采“发布”类型的帖子,其他不采集。所以右侧分支可以不进行判断条件的设置,默认留空即可。_4保序论坛苦贡 宜档期理 罰云主机 呢叨 实腐空 廉讯除 应用中力Sfl;6710 叵耳=4* tiE,H框呂片启动SiEE更直元表【发耐如何臧手机版URL伪静态有利于提高捜案引荃收 欣高域选项拦贼掲挾不到如何.述理牛岸分盍-判断余件4密侍甘吏

7、g觀廡藤璃 归前T二4 =出 E判断条件-图7:对左侧分支,增加“提取数据”步骤本帖氓氏由apgl于7T.7-1-75囲申埜M :価丈固便序$判断条件-图8:采集需要的字段迦D- 14-輸:忙门专 I-?一如何解决手机版UftL伪艇有利于抿霑昭!1:W.亍小贴士 : A.可以从流程图左侧工具栏拖入一个提取数据到分支中,然后点击要提的数据进行 数据提取。B.也可以直接在网页中进行数据的提取的,但此时生成的“提取数据可能不在 分支内,需将其拖入分支中。点击选中“提取数据”,拖入分支,放在出现的绿色加号位置 即可。AV*八爪鱼大数据q 3曲国唾=M3MET 217-I-I7 IBl21h卫强吕由2T

8、Kl于2叫rtnwrittii判断条件-图9:增加“提取数据”步骤的两种方式5、所有操作设置完毕后,点击保存。然后进行本地采集,观察采集结果。本地采集无误后再进行云采集。=F aoj7z3 iKa;a?旦耗m良吊的韭S3认的miE .茸垦卞不圈功时7fflpaw尬円粉弋手砲皿再 SHnSit-EPi! 旺毋M3近一* “ (iflHn世豈冋站所护 =|i5-F3B忖Bl可贝JU件 曲目说宁电EM乜“判断条件-图10:数据采集41八爪鱼大数据八爪鱼云采集服务平台重要补充:1)分支判断默认从左往右执行,先判断左边的条件,若左边的分支均不满足条件,最右边 的分支将不做判断直接执行。2)如果不同的分支

9、内有不同的提取元素步骤,必须将每个分支内总共的提取元素步骤内的 字段名和个数设置为相同例:分支1 内有提取数据步骤,提取的字段为字段1,字段2,字段3情况 1:分支2 内没有提取数据步骤,这个流程可以正常执行情况 2:分支2内有提取数据步骤,提取的字段为字段a,字段b ,字段c ;此时流程将不能正常执 行。因为八爪鱼采集器执行分支1时提取不到字段abc,分支2的提取步骤都无法提取到 数据,八爪鱼采集器判断此条数据不完整,将此条数据作废不保存。因此,需要在分支1的提取步骤增加字段abc,且在分支2的提取数据步骤增加字段123, 字段名称和个数必须一致,可以设置为空数据也可设为固定值,八爪鱼采集器

10、就会认为字段 都提取到了,此时数据不会作废,而是执行分支1时,字段123有数据,字段abc为空白, 执行分支2时,字段123为空白,字段abc有数据八爪鱼大数据让数抵脏手可录情况 3:多个分支内有多个不同的提取数据步骤,请参考情况2,保证每个分支判断的提取的字段与 其他分支判断内提取的字段的字段名及字段数量一致即可3)八爪鱼中允许某个分支中无任何操作步骤。4)对于需要同时判断多个条件,则需要嵌套使用多个分支判断。但建议将已选好判断条件后的网址放入八爪鱼中采集数据。此外当有case when时,可以用多分支实现,复制黏贴 即可。5)八爪鱼中分支判断对“存在”或“不存在”即“有”或“无”的是非判断

11、,其操作性更 为简单便捷。对大小的比较判断操作繁琐,需利用XPath实现。6 )判断条件的与和或可以通过XPath中的T和“&”实现。相关采集教程:百度搜索结果采集 安居客信息采集 58 同城信息采集八爪鱼一一70万用户选择的网页数据采集器。1操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化 流程,点击鼠标完成操作,2分钟即可快速入门。2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布 流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大 云采集集群24*7不间断运行,不用担心IP被封,网络中断。4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的 基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户 的需要。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号