文档详情

网页链接提取方法

桔****
实名认证
店铺
DOCX
706.35KB
约13页
文档ID:549601969
网页链接提取方法_第1页
1/13

网页链接提取方法网页链接的提取是数据采集中非常重要的部分,当我们要采集列表页的数据时,除了列表标 题的链接还有页码的链接,数据采集只采集一页是不够,还要从首页遍历到末页直到把所有 的列表标题链接采集完,然后再用这些链接采集详情页的信息若仅仅靠手工打开网页源代 码一个一个链接复制粘贴出来太麻烦了掌握网页链接提取方法能让我们的工作事半功倍 在进行数据采集的时候,我们可能有提取网页链接的需求网页链接提取一般有两种情况: 提取页面内的链接;提取当前页地址栏的链接针对这两种情况,八爪鱼采集器均有相关功 能实现下面介绍一个网页链接提取方法一"八爪鱼提取页面内的超链接在网页里点击需要提取的链接,选择"采集以下链接地址"L':e:R市壕ST蹈折曰A*5^110 卜-.1 =■■■■■ it帽字段正瞄和敦程翔牛下或JAPJTTt■;■!.;: _■■■.■! # X 一.,.」1_心 /、•http ifnr b aehu .Xbttp .I'/rtr \ aeku .X理命和的程bttp /Anr b acliu .X二、八爪鱼提取当前地址栏的超链接从左边栏拖出一个提取数据的步骤出来如果当前页已经有其他的提取字段这一步可省略)点击"添加特殊字段",选择"添加当前页面网址"。

可以看到,当前地址栏的超链接被抓取下来网页链接提取方法2国工好b|nw既dj函-1.....=1人工却旧页面际扯ba zb u 3 y.•—■hi 德*a®三而批量提取网页链接的需求,一般是指批量提取页面内的超链接以下是一个使用八爪鱼批量提取页面内超链接的完整示例采集网站: e&commend=all&imgfile=&q二 手 表&suggest=history_1&_input_charset=utf-8&wq=&suggest_query=&source=sugg est步骤1:创建采集任务1 )进入主界面,选择自定义模式网页链接提取方法32)将上面网址的网址复制粘贴到网站输入框中,点击"保存网址”告昌漏®置Efff43 )克奇圜障训、用回茹mJUKl^米Bfi-B-苫斗 MIBE^-B-sagour-^^%)mzf*bsdh^宙595,孑0 屈 *4I:3.5,Gn 日 — *IMQgmlp日E.■■ 72¥rolo可r w 吉ibheiwam吼#H£M=.MB-舞 » »sev£sam■B!-ljF.H-JrMH. : J TH ・dlrw rn* H.HH; ・ 目 9.・HI者言ar:L 2 IT.昌漏®置Efff5心伯.口 口归■ ■]l.i"4H«d-J网页链接提取方法6步骤3:商品url采集1)如图,移动鼠标选中列表中商品的名称,右键点击,需采集的内容会变成绿色,然后点击"选中全部”2 )选择"采集以下链接地址”+ si网页链接提取方法83 )点击"保存并开始采集”网页链接提取方法94 )根据采集的情况选择合适的采集方式,这里选择"启动本地采集”网页链接提取方法10步骤4 :数据采集及导出1 )选择合适的导出方式,将采集好的数据导出Ifldhrtn.rniTlft tri:ZZl-Iji■- tirt-w G!B.!i kkt IjKiiZ/ZL-bra. tirbw “b/Msb. kMHT直词k上0E:/AtM. ta ktS J4MI4?Tim4tau・lliId: ips:&出IsLl. Iidl aoi/icirL hinfl d-r+WCPOIStai-W■.*l LoM H»7|>hi|◎ WEtO Ex«4 HXBlria]O HTM-*rt■:j 如£snX通过以上操作,目标网页内的商品超链接就被批量采集下来了。

我们可以使用这些超链接,建立列表循环,来采集我们需要的其他字段数据,如下所示步骤5 :创建url列表采集任务1)重新创建一个采集任务,将导出后的商品链接复制,放到输入框中,点击"保存网址"hiipc,i)^wii.lac^iK-^Dn.i'hfriBirTAri~UMDJ IdTdBrwz I 1 AdruilxtrpE^Ww—. HCtOMKimAi lnwacl-&aMi3J2Ml4rs*i ■- 1 洲加 IhUp£,i*^tani.vc4i»:-Jcimilhr-ilTliTSd"T2T4£A4J2^^ra-" I 虹btjct.M 13-*dviiJ httpisutmKMMKgTT/WnEiTflUEXXSflBnjs I 跚加TtH= 1*如" hirp«.■SWbK-jC&fllT1"rJICl-T113JflM1 曲I HUfi^iyrt«ni.vc4iK-jcir-i,i,nv-iJTliT2ida-SJE^6C2JT|95J^ra« i 虹bir_«±・|q 侣+dviid httpiEjtMea.WOlMMmrtwn 叫叱 In np s^'^h m .3KtK'jc»« >'^w^ hi^o-E-sfeilB-aai •加tb_€ui> 如a』hUp£.iyri«ni.K4i*=-Ain.i,rviJTirr^idB S5fe2£4£=iA24'2&ra-> I 13+dwUd印丽(1=,$53窿乂仲可&怵 I IM岫」hnpcr^R.iK4iK'ja&flirwnJTiK^ii[i-&SBJA2IU3JIMfiird» I 蛙4kq“・ 1 尹由nH htipE.iyrtara.TKhK-xxn.i'bnJTliTSda'SJEiJ^JOllJU^n!' I £UE4f_<±al-" 1 少ritiid htapsf^Kfi hiirflii=:MM4iSiSiM6«^ I Bwbburtei- iMsfewJhnpEi^M.^te'jOOflifflflJTIF^d-SSBJJOWTaiSfiirH- I 蛙网页链接提取方法12注意:输入框中的url列表数量不要超过2W个,超过的部分可以新建任务进行采集,url打开的页面必须是相同网站样式相近的,否则会导致数据采集缺失。

2)在页面中点击需要采集的文本数据,点击“采集数据”网页链接提取方法13^HtS^LOrtH EM-15 ¥WBraiMNi:Zri;AHS-lfliTlJ3 )打开流程图,修改采集字段名称,点击"保存并开始采集”网页链接提取方法14注意:点击右上角的"流程"按钮,即可展现出可视化流程图4)采集完成,点击"导出数据”一苴电也正民的能村匚■■口 HFfab耿卖次心命■城«« ii,■电•3白钮 冲 曰附TM卅侦利 时Hit: 61理阉!电(I 的HJL■琳S网页链接提取方法155)选择合适的导出方式,将采集好的数据导出EiS 朝正!WginwriF•■IETWMWES密 TSSHx£i£H-*K»E奶吵 乍西15■坦*生击明由心 l£flS»HrfiF.ihg fli.tflbb蛾卖京Fuhbri卷必H宣:*1^\ JChpnq^jpnPT: @避窘霏su: ■! n^Ejd•■IETWM间姬I胃计评怖商品港迥了收Q WH NMSfckio匚升支忤0 HTIAStt!itaw+i3Gtf*n.± .E]£C JfciBnfiffQM破的4岬学祚戒.30,面手直H士土白边^ .DD4*苫II..■电斜我V&15Da6■■ •■ EX 4 +,• ■DDU>ii .w―敝闻■00jtti. ML史昉■3EiLiK^nwiLliKrtL .DE皿 iM-JjXl MJ勺WlW*SEfflW^H .DJEftEfl■TlWf携好01BJ ■II龄iXl・心脚1虹, l£flS»Hrfi*如心 fli.tfl白钮 冲 曰附TM卅侦利 时Hit: 6>理阉!网页链接提取方法16注:在八爪鱼中,要提取超链接,需要满足两个条件。

1、点击的字段在A标签,在网页源码中,A标签代表超链接,如果不是在A标签内,八爪鱼无法判断2、A标签内有href属性,href属性里的就是点击之后链接转向的地址,属性里显示什么, 八爪鱼就提取什么如果没有href属性,自然就没办法提取到这些都是八爪鱼自动判断的,其实看不懂也不影响操作只是如果发现提取不到的时候,也 许就是因为没满足这两个条件,要看当前网页源码的特点,根据特点找别的方式提取数据相关采集教程:网页视频链接提取,以腾讯视频为例:。

下载提示
相似文档
正为您匹配相似的精品文档