几种网络爬虫的优缺点.doc

上传人:F****n 文档编号:103231164 上传时间:2019-10-06 格式:DOCX 页数:5 大小:140.69KB
返回 下载 相关 举报
几种网络爬虫的优缺点.doc_第1页
第1页 / 共5页
几种网络爬虫的优缺点.doc_第2页
第2页 / 共5页
几种网络爬虫的优缺点.doc_第3页
第3页 / 共5页
几种网络爬虫的优缺点.doc_第4页
第4页 / 共5页
几种网络爬虫的优缺点.doc_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《几种网络爬虫的优缺点.doc》由会员分享,可在线阅读,更多相关《几种网络爬虫的优缺点.doc(5页珍藏版)》请在金锄头文库上搜索。

1、搜索引擎的实现过程,可以看作三步:1. 从互联网上抓取网页 2. 对网页进行处理,建立索引数据库 3. 进行查询。因此无论什么样的搜索引擎,都必须要有一个设计良好的爬虫来支持。1. Heritrix 优点:Heritrix 是 SourceForge 上基于 Java 的开源爬虫,它可以通过 Web 用户界面来启动、设置爬行参数并监控爬行,同时开发者可以随意地扩展它的各个组件,来实现自己的抓取逻辑,因其方便的可扩展性而深受广大搜索引擎爱好者的喜爱。缺点:虽然 Heritrix 功能强大,但其配置复杂,而且官方只在 Linux 系统上测试通过,用户难以上手。根据网上来看这个软件还没有完善。2.

2、WebSPHINX优点:比较简单缺点:只能找一个字段3. 网页抓取/信息提取/数据抽取软件工具包MetaSeeker (GooSeeker) V4.11.2正式发布,在线版免费下载和使用,源代码可阅读。自推出以来,深受喜爱,主要应用领域: 垂直搜索(Vertical Search):也称为专业搜索,高速、海量和精确抓取是定题网络爬虫DataScraper的强项,每天24小时每周7天无人值守自主调度的周期性批量采集,加上断点续传和软件看门狗(Watch Dog),确保您高枕无忧 移动互联网:手机搜索、手机混搭(mashup)、移动社交网络、移动电子商务都离不开结构化的数据内容,DataScrap

3、er实时高效地 采集内容,输出富含语义元数据的XML格式的抓取结果文件,确保自动化的数据集成和加工,跨越小尺寸屏幕展现和高精准信息检索的障碍。手机互联网不是 Web的子集而是全部,由MetaSeeker架设桥梁 企业竞争情报采集/数据挖掘:俗称商业智能(Business Intelligence),噪音信息滤除、结构化转换,确保数据的准确性和时效性,独有的广域分布式架构,赋予DataScraper无与伦比的情报采 集渗透能力,AJAX/Javascript动态页面、服务器动态网页、静态页面、各种鉴权认证机制,一视同仁。在微博网站数据采集和舆情监测领域远远领 先其它产品。4. http:/ Me

4、taSeeker工具包是一套完整的网页内容抓取、格式化、数据集成、存储管理和搜索解决方案,此文简单介绍一下其网络爬虫的特点:网络爬虫有多种实现方法,如果按照部署在哪里分,可以分成:1,服务器侧:一般是一个多线程程序,同时下载多个目标HTML,可以用PHP, Java, Python(当前很流行)等做,可以速度做得很快,一般综合搜索引擎的爬虫这样做。但是,如果对方讨厌爬虫,很可能封掉你的IP,服务器IP又不容易 改,另外耗用的带宽也是挺贵的。建议看一下Beautiful soap。2,客户端:一般实现定题爬虫,或者是聚焦爬虫,做综合搜索引擎不容易成功,而垂直搜诉或者比价服务或者推荐引擎,相对容易

5、很多,这类爬虫不是什么页面都 取的,而是只取你关系的页面,而且只取页面上关心的内容,例如提取黄页信息,商品价格信息,还有提取竞争对手广告信息的,搜一下Spyfu,很有趣。这类 爬虫可以部署很多,而且可以很有侵略性,对方很难封锁。MetaSeeker中的网络爬虫就属于后者。如果从怎样提取数据上分,还可以分成两类,我们只说定题爬虫,普通爬虫要简单的多,网上大把。这两类是:1,通过正则表达式提取内容,HTML文件就是一个文本文件,直接使用正则表达式在指定地方提取内容即可,指定地方不一定是绝对定位,例如,可以参照HTML的标签定位,更准确2,利用DOM提取内容,HTML文件先转成DOM数据结构,在遍历

6、这个结构提取内容。MetaSeeker中的网络爬虫还属于后者。有人会问,为什么还要用DOM方式,转了一道?有很多原因决定DOM方式的存在理由:首先,DOM结构的分析都不用自己做,有现成的库,编程并没有变复杂;第二,可以实现很复杂但是很灵活的定位规则,而正则表达式很难写;第三,如果定位是要考虑HTML文件结构,用正则表达式不容易解析,HTML文件经常有错,如果将这个任务交给现成的库,要容易很多。第四,假设还要解析Javascript的内容,正则表达式无能为力了,当然DOM方式自己也无能为力,但是可以利用某个平台的能力,就有可能提取AJAX网站内容。还有很多原因。MetaSeeker工具包利用Mo

7、zilla平台的能力,只要是Firefox看到的东西,它都能提取。爬虫的变种很多,仅讲这两个方面。MetaSeeker工具包是免费使用的,下载地址: 下载的同时进行安装:在下载弹出窗口中选择“运行”,并指定运行程序Firefox 2. 下载保存后安装:在下载弹出窗口中选择“保存”,以后安装下面将讲解使用第二种方式下载后怎样安装。运行Firefox后,只要将两者的程序包文件(分别是metastudio_xxx.xpi和datascraper.xpi)拖到Firefox上即可启动安装过程。安装完成后,如果在Firefox状态栏的右下角显示“MetaStudio Installed”和“DataSc

8、raper Installed”,表示两者安装成功。如果安装成功,在Firefox的“工具”菜单上会出现“MetaStudio”和“DataScraper”两个菜单项。初始运行安装完成后,第一次运行MetaStudio和DataScraper时,会提示输入MetaSeeker在线用户帐号和口令信息,用户可以选择将输入的信息存储在本地,这样以后运行就不用再次输入了。配置文件存储在用户的$HOME目录下,名字分别是: .metastudio.conf .datascraper.conf企业一般可在支付平台上备案多个用于税费电子支付的账号,法人卡用户可通过点击“修改可操作账号”,将这些银行账号的操作

9、权限给予指定的操作员卡用户,并设定最大可操作金额。several group number, then with b a, =c,c is is methyl b two vertical box between of accurate size. Per-23 measurement, such as proceeds of c values are equal and equal to the design value, then the vertical installation accurate. For example a, b, and c valueswhile on horizontal vertical errors for measurement, General in iron angle code bit at measurement level points grid errors, specific method is from baseline to methyl vertical box center line distance for a, to b vertical box distance for b, list can measured

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号