网路爬虫汇总工具－金锄头文库

资源描述

《网路爬虫汇总工具》由会员分享，可在线阅读，更多相关《网路爬虫汇总工具（8页珍藏版）》请在金锄头文库上搜索。

1、Heritrix Heritrix 是一个开源，可扩展的 web 爬虫项目。Heritrix 设计成严格按照 robots.txt 文件的排除指示和 META robots 标签。 http:/crawler.archive.org/WebSPHINX WebSPHINX 是一个 Java 类包和 Web 爬虫的交互式开发环境。Web 爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理 Web 页面的程序。WebSPHINX 由两部分组成：爬虫工作平台和 WebSPHINX 类包。 http:/www.cs.cmu.edu/rcm/websphinx/WebLech WebLech 是一个功

2、能强大的 Web 站点下载与镜像工具。它支持按功能需求来下载 web 站点并能够尽可能模仿标准 Web 浏览器的行为。WebLech 有一个功能控制台并采用多线程操作。 http:/ Arale 主要为个人使用而设计，而没有像其它爬虫一样是关注于页面索引。Arale 能够下载整个 web 站点或来自 web 站点的某些资源。Arale 还能够把动态页面映射成静态页面。 http:/web.tiscali.it/_flat/arale.jsp.htmlJ-Spider J-Spider:是一个完全可配置和定制的 Web Spider 引擎.你可以利用它来检查网站的错误(内在的服务器错误等

3、),网站内外部链接检查，分析网站的结构(可创建一个网站地图),下载整个 Web 站点，你还可以写一个 JSpider 插件来扩展你所需要的功能。 http:/j- spindle 是一个构建在 Lucene 工具包之上的 Web 索引/搜索工具.它包括一个用于创建索引的 HTTP spider 和一个用于搜索这些索引的搜索类。spindle 项目提供了一组 JSP 标签库使得那些基于 JSP 的站点不需要开发任何 Java 类就能够增加搜索功能。 http:/ Arachnid: 是一个基于 Java 的 web spider 框架.它包含一个简单的 HTML 剖析器能够分析包含 HTM

4、L 内容的输入流.通过实现 Arachnid 的子类就能够开发一个简单的 Web spiders 并能够在 Web 站上的每个页面被解析之后增加几行代码调用。 Arachnid 的下载包中包含两个 spider 应用程序例子用于演示如何使用该框架。 http:/ LARM 能够为 Jakarta Lucene 搜索引擎框架的用户提供一个纯 Java 的搜索解决方案。它包含能够为文件，数据库表格建立索引的方法和为 Web 站点建索引的爬虫。http:/ JoBo 是一个用于下载整个 Web 站点的简单工具。它本质是一个 Web Spider。与其它下载工具相比较它的主要优势是能够自动填充

5、form(如：自动登录)和使用 cookies 来处理 session。JoBo 还有灵活的下载规则(如：通过网页的 URL，大小，MIME 类型等)来限制下载。 http:/ snoics -reptile 是用纯 Java 开发的，用来进行网站镜像抓取的工具，可以使用配制文件中提供的 URL 入口，把这个网站所有的能用浏览器通过 GET 的方式获取到的资源全部抓取到本地，包括网页和各种类型的文件，如：图片、flash、mp3、zip、rar、exe 等文件。可以将整个网站完整地下传至硬盘内，并能保持原有的网站结构精确不变。只需要把抓取下来的网站放到 web 服务器(如：Apach

6、e)中，就可以实现完整的网站镜像。 http:/ Web-Harvest 是一个 Java 开源 Web 数据抽取工具。它能够收集指定的 Web 页面并从这些页面中提取有用的数据。Web-Harvest 主要是运用了像 XSLT,XQuery,正则表达式等这些技术来实现对 text/xml 的操作。 http:/web-spiderpy spiderpy 是一个基于 Python 编码的一个开源 web 爬虫工具，允许用户收集文件和搜索网站，并有一个可配置的界面。 http:/ Spider Web Network Xoops Mod Team pider Web Network Xoo

7、ps Mod 是一个 Xoops 下的模块，完全由 PHP 语言实现。 http:/ Fetchgals 是一个基于 perl 多线程的 Web 爬虫，通过 Tags 来搜索色情图片。 https:/ larbin 是个基于 C+的 web 爬虫工具，拥有易于操作的界面，不过只能跑在 LINUX 下，在一台普通 PC 下 larbin 每天可以爬 5 百万个页面(当然啦，需要拥有良好的网络) http:/ Web Spider 引擎.你可以利用它来检查网站的错误(内在的服务器错误等),网站内外部链接检查，分析网站的结构(可创建一个网站地图),下载整个 Web 站点，你还可以写一个 JSpid

8、er 插件来扩展你所需要的功能。spindlepindle 是一个构建在 Lucene 工具包之上的 Web 索引/搜索工具.它包括一个用于创建索引的 HTTP spider 和一个用于搜索这些索引的搜索类。spindle 项目提供了一组 JSP 标签库使得那些基于 JSP 的站点不需要开发任何 Java 类就能够增加搜索功能。ArachnidArachnid:是一个基于 Java 的 web spider 框架.它包含一个简单的 HTML 剖析器能够分析包含 HTML 内容的输入流.通过实现 Arachnid 的子类就能够开发一个简单的 Web spiders 并能够在 Web 站上的

9、每个页面被解析之后增加几行代码调用。 Arachnid 的下载包中包含两个 spider 应用程序例子用于演示如何使用该框架。LARMLARM 能够为 Jakarta Lucene 搜索引擎框架的用户提供一个纯 Java 的搜索解决方案。它包含能够为文件，数据库表格建立索引的方法和为 Web 站点建索引的爬虫。JoBoJoBo 是一个用于下载整个 Web 站点的简单工具。它本质是一个 Web Spider。与其它下载工具相比较它的主要优势是能够自动填充 form(如：自动登录)和使用 cookies 来处理 session。JoBo 还有灵活的下载规则(如：通过网页的 URL，大小，MIM

10、E 类型等)来限制下载。snoics-reptilesnoics-reptile 是用纯 Java 开发的，用来进行网站镜像抓取的工具，可以使用配制文件中提供的 URL 入口，把这个网站所有的能用浏览器通过 GET 的方式获取到的资源全部抓取到本地，包括网页和各种类型的文件，如：图片、flash、mp3、zip、rar、exe 等文件。可以将整个网站完整地下传至硬盘内，并能保持原有的网站结构精确不变。只需要把抓取下来的网站放到 web 服务器(如：Apache)中，就可以实现完整的网站镜像。Web-HarvestWeb-Harvest 是一个 Java 开源 Web 数据抽取工具。它

11、能够收集指定的 Web 页面并从这些页面中提取有用的数据。Web-Harvest 主。php 开源网络爬虫1、PHPdig 是国外非常流行的垂直搜索引擎产品（与其说是产品，不如说是一项区别于传统搜索引擎的搜索技术），采用 PHP 语言编写，利用了 PHP 程序运行的高效性，极大地提高了搜索反应速度，它可以像 Google 或者 Baidu 以及其它搜索引擎一样搜索互联网，搜索内容除了普通的网页外还包括 txt, doc, xls, pdf 等各式的文件，具有强大的内容搜索和文件解析功能。2、Sphider is a lightweight web spider and search

12、 engine written in PHP, using MySQL as its back end database. It is a great tool for adding search functionality to your web site or building your custom search engine. Sphider is small, easy to set up and modify, and is used in thousands of websites across the world.Sphider supports all standard se

13、arch options, but also includes a plethora of advanced features such as word autocompletion, spelling suggestions etc. The sophisticated adminstration interface makes administering the system easy. The full list of Sphider features can be seen in the about section; also be sure to check out the demo

14、 and take a look at the showcase, displaying some sites running Sphider. If you run into problems, you can probably get an answer to your question in the forum.3、iSearchThe iSearch PHP search engine allows you to build a searchable database for your web site. Visitors can search for key words and a

15、list of any pages that match is returned to them. IntroductioniSearch is a tool for allowing visitors to a website to perform a search on the contents of the site. Unlike other such tools the spidering engine is written in PHP, so it does not require binaries to be run on the server to generate the search index for HTML pages.【Java 开源 Web 爬虫】列

展开阅读全文

网路爬虫汇总工具

最新文档