apache nutch 1.7 在windows和linux下的安装

上传人:第*** 文档编号:34233326 上传时间:2018-02-22 格式:DOCX 页数:19 大小:774.81KB
返回 下载 相关 举报
apache nutch 1.7 在windows和linux下的安装_第1页
第1页 / 共19页
apache nutch 1.7 在windows和linux下的安装_第2页
第2页 / 共19页
apache nutch 1.7 在windows和linux下的安装_第3页
第3页 / 共19页
apache nutch 1.7 在windows和linux下的安装_第4页
第4页 / 共19页
apache nutch 1.7 在windows和linux下的安装_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《apache nutch 1.7 在windows和linux下的安装》由会员分享,可在线阅读,更多相关《apache nutch 1.7 在windows和linux下的安装(19页珍藏版)》请在金锄头文库上搜索。

1、Apache Nutch 1.7 安装总结目录前言 .3Nutch 在 Windows 下的搭建过程 .31 准备工作 .32 安装 Cygwin.33 安装 Nutch1.7.84 Nutch1.7 测试 .95 Nutch 与 Solr 结合使用 .11Nutch 在 Linux 下的搭建过程 .131 准备工作 .132 开始部署 .132.1 安装 linux 系统 .132.2 安装 jdk .132.3.配置 nutch 创建索引 .142.4 安装 tomcat .172.5 配置 nutch 查询索引 .17参考文献 .19前言学习使用 nutch 的时间加起来能有一个月了,在

2、网上也搜集了不少的资料,但是比较零散,所以想把这一个月使用它的全部过程、原理的讲解和中间的注意事项总结一下。主要汇总写网上已有的资料,方便查阅嘛。Nutch 在 Windows 下的搭建过程1 准备工作我是在 Window7 下搭建的 Nutch,所需要的工具如下:(1)Cygwin 安装(2)jdk-6u25-win-i586.bin(2)apache-nutch-1.2-bin.tar.gz2 安装 Cygwin下载地址: http:/ (1 )因为 nutch 自身的命令是要在 linux 环境下才能运行,所以先安装了 cygwin,Cygwin 是一个在 Windows 下的模拟 Li

3、nux 系统程序。Cygwin 的安装:http:/ cygwin 的安装步骤演示的很详细,对我们这些初步接触 cygwin 的人有很大的帮助。(2 ) 下面是我自己安装时的截图1)安装页面,点击下一步 图示中共有三种安装方式:(1)Install from Internet:从 Internet 上下载并安装软件;(2)Download Without Installing:从 Internet 上下载安装的文件,但暂时不安装;(3)Install from Local Directory:从本地含有安装文件的目录进行安装。我们选择第一项“Install from Internet”后,点击

4、“下一步”2) 选择安装目录,可以根据默认,也可以根据自己需要换路径 3) 建立 Downloads 文件夹,接收下载包4)选择镜像地址,没有演示中说的:http:/ 代表中国的网站,下载会更快5)选择安装包安装向导显示出所要安装的内容列表,用户可以根据自己的实际需要来决定安装哪些程序。点击循环箭头图标后面的文字,可以更改安装的方式,常用的方式有 Default(表示只安装缺省的安装项) 、Install(表示安装全部程序,空间要求较大) 、Reinstall(表示重新安装程序) 。6)安装完成至此,笔者还要对 Cygwin 再多说几句。 Cygwin 是一个在 Windows 平台上模拟运行

5、Unix 的环境,用户可以通过它来熟悉与学习 Unix 系统的操作。对于 Unix 系统还不甚熟悉的读者可以参阅笔者之前写作的Unix 操作系统的入门与基础 、 Unix 的轻便“约取而实得”系列文章,下文中对涉及使用到的 Unix 命令将不再给予具体解释。3 安装 Nutch1.7Nutch 是一个 Java 实现的 web 爬虫,爬取的结果存储到 database(指定文件路径下的一系列文件及目录)供 Solr 或 Lucene 索引和检索。2014 年发布的最新版本有两个:主流的 v1.7 和支持大范围爬取、大数据存储的 v2.0。常见搜索相关的框架的基本功能列表:爬取 索引 检索Nut

6、ch Solr Lucene Grub Larbin Grub (search engine)是开源的分布式搜索爬虫平台(distributed search crawler platform)。创建于 2000 年,2003 年被 LookSmart 收购,后来被中止,2007 年再次启动。官网grub.org。注意与 GNU GRUB 的不同,GNU GRUB 是计算机启动的引导加载程序(boot loader)。Larbin 是法国人用 C+实现的 web 爬虫,最近已经不更新了。下载安装 apache-nutch-1.7-bin.zip 并设置。下载地址:http:/archive.a

7、pache.org/dist/nutch/(1 ) 下载完成后将其解压到 D 盘,文件夹名为 nutch-1.7解压缩 Nutch 二进制分发包,目录如下: bin 目录,只包含一个可执行文件 nutch conf 目录,nutch 命令执行的配置参数 docs 目录,JavaDoc 帮助 lib 目录,相关 Jar 类库 plugins 目录,相关插件库(2 )输入 ,打开到 d 盘目录下nutch-1.7 文件夹,输入 bin/nutch 进行 nutch 安装测试: 出来一系列 nutch 的命令,证明 nutch 安装成功;“工欲善其事,必先利其器。 ”经过前文的“ 细解”,我们已经完

8、成了 Nutch 在 Windows 中的安装。接下来就让我们通过锋芒初试,来亲自体验一下 Nutch 的强大功能吧!(3 )在 Windows 系统的环境变量设置中,添加 NUTCH_JAVA_HOME 环境变量 :D:jdk1.7.0_07。并将其值设为 JDK 的安装目录。4 Nutch1.7 测试1. Nutch 的爬虫抓取网页有两种方式,一种方式是 Intranet Crawling,针对的是企业内部网或少量网站,使用的是 crawl 命令;另一种方式是 Whole-web crawling,针对的是整个互联网,使用 inject、generate 、fetch 和 updatedb

9、 等更底层的命令。 本文将以使用Nutch 为笔者在 CSDN 处的个人专栏(http:/ 文章内容建立搜索功能为例,来讲述 Intranet Crawling 的基本使用方法(假设用户电脑系统已安装好JDK、Tomcat 和 Resin,并做过相应的环境配置) 。1、设置 Nutch 的环境变量在 Windows 系统的环境变量设置中,添加 NUTCH_JAVA_HOME 环境变量 :D:jdk1.7.0_07。并将其值设为 JDK 的安装目录。 。2、Nutch 抓取网站页面前的预备工作(1)修改配置文件 conf/nutch-site.xmlhttp.agent.nameMySpider修改属性 http.agent.name 为任何其他值(2)设置要爬取的网址 URL创建 myURLs 目录(为了执行方便,最好为 $NUTCH_HOME/myURLs)在 myURLs 目录创建文件 seed.txt,编辑该文件,一行一个要爬取的网址 url。http:/ conf/crawl-urlfilter.txt 文件,修改 M

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号