[计算机软件及应用]Heritrix144安装配置使用手册

上传人:s9****2 文档编号:487969779 上传时间:2022-09-15 格式:DOC 页数:46 大小:551.50KB
返回 下载 相关 举报
[计算机软件及应用]Heritrix144安装配置使用手册_第1页
第1页 / 共46页
[计算机软件及应用]Heritrix144安装配置使用手册_第2页
第2页 / 共46页
[计算机软件及应用]Heritrix144安装配置使用手册_第3页
第3页 / 共46页
[计算机软件及应用]Heritrix144安装配置使用手册_第4页
第4页 / 共46页
[计算机软件及应用]Heritrix144安装配置使用手册_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《[计算机软件及应用]Heritrix144安装配置使用手册》由会员分享,可在线阅读,更多相关《[计算机软件及应用]Heritrix144安装配置使用手册(46页珍藏版)》请在金锄头文库上搜索。

1、Heritrix的配置及安装使用首先得下载Heritrix包。 下载最新版的heritrix1.14.4.zip和heritrix-1.14.4-src.zip。地址:http:/ F:Heritrix 目录中的heritrix-1.14.4.jar文件解压缩,把 profilesdefault 下的两个文件order.xml和seeds.txt复制到 F:Heritrixconf 目录下。3、以文本编辑方式打开 F:Heritrixconf 下的heritrix.properties文件,在“heritrix.cmdline.admin = ” 项的后面加入你所要设定的管理员账户和密码,用“

2、:”分割,如: heritrix.cmdline.admin = admin:admin4、复制 F:Heritrixconf 下的jmxremote.password.template文件到主目录F:Heritrix下,并更名为jmxremote.password。编辑此文件,更改最后两行monitorRole PASSWORD、controlRole PASSWORD中的PASSWORD为管理员密码。如: monitorRoleadmin controlRole admin 如果顺利,就可以运行了。系统自带脚本的运行如下: 将cmd定位到 F:heritrixbin下,执行 heritri

3、x -admin=admin:admin 命令,即可启动 heritrix, 有一点需要注意,heritrix默认使用8080端口,要保证系统端口没有冲突。之后便可以访问 http:/127.0.0.1:8080 或http:/localhost:8080/ 使用 heritrix 提供的WUI,即Web管理端。并且使用admin/admin登录。 可能会出现的异常: 其中在Heritrix有一条异常信息是:java.lang.ClassNotFoundException:org.archive.crawler.Heritrix. 在Dos下可能是这样显示:JMX password file

4、is missing or permission not set correctly. 原因是,heritrix启动时找不到heritrix的.Jar 包,即heritrix-1.14.4.jar。你就要看你的F:/Heritrix下有没有这个包,没有就加上,基本上是有的。 有的话,就要看你的环境变量中是不是设置了HERITRIX_HOME环境变量,如 果有,把它删除就解决了。 其它情况我没有遇到,就不写了。二、在Eclipse中配置Heritrix 1、新建空的java项目(注意不是WEB项目),命名为heritrix; 2、把heritrix-1.14.4-srcsrcjava目录下的or

5、g、st和com文件夹拷贝到heritrix/src目录下;3、把heritrix-1.14.4-srcsrc下的wbapps文件夹拷贝到heritrix目录下; 4、右击heritrix项目,点击properties ,通过JavaBuildPath,将heritrix-1.14.4-src下的lib目录下的所有包导入进来; 5、解压缩heritrix-1.14.4目录下的heritrix-1.14.4.jar文件,把解压后的所有文件和文件夹(除org、st、com文件夹和heritrix.properties文件外)拷贝到heritrix目录下; 6、将heritrix-1.14.4目录下

6、的conf文件夹拷贝到heritrix目录下;并将heritrix目录下的profiles文件夹移入conf文件夹中; 7、打开eclipse下的heritrix/conf/heritrix.properties文件,找到heritrix.cmdline.admin=,修改为“heritrix.cmdline.admin = admin:admin”; 8、Conf/jmxremote.password.template拷贝到heritrix目录下。改名为:jmxremote.password,最后再行改成: monitorRole admin controlRole admin admin为

7、设置的WEBUI的密码 9、找到org.archive.crawler包,运行Heritrix.java中的main函数。 成功提示信息为: 09:14:07.406 EVENT Starting Jetty/4.2.23 09:14:07.656 EVENT Started WebApplicationContext/,Heritrix Console 09:14:07.750 EVENT Started SocketListener on 127.0.0.1:8082 09:14:07.750 EVENT Started org.mortbay.jetty.Server179c285 He

8、ritrix version: 1.14.4可能会出现的异常: 1、在Heritrix.java中出现File URLConnection 红叉; 解决办法:将myeclipse中的compiler 属性中的Errors/warring 中的Forbidden.选为warrning即可。 2、出现的异常:.thread-10 org.archive.util.ArchiveUtils.( )TLD list.解决办法:将 heritrix-1.14.4-srcheritrix-1.14.4srcresourcesorgarchiveutil 下的文本文档拷贝到heritrix中的orgarch

9、iveutil下; 3、在eclipse中可以启动heritrix,但在jobs-modules.jsp页面中没有添加(“Add”)按扭,且出现以下异常。致使错误:“无法编译样式表” 严重 thread-12 org.archivecrawler.framework.WriterPodProcessor.io.arc. 解决办法:将heritrix 项目中的modulse的上一级目录文件添加到eclipse的classpath中。创建一个新的抓取任务(1)单击WebUI菜单栏上的“Jobs”标签,就可以进入任务创建页面。如图10-18所示。(2)在任务创建页面中,有4种创建任务的方式,如图10

10、-19所示,具体含义如下。l Based on existing job:以一个已经有的抓取任务为模板,创建所有抓取属性和抓取起始URL的列表。l Based on a recovery:在以前的某个任务中,可能设置过一些状态点,新的任务将从这个设置的状态点开始。l Based on a profile:专门为不同的任务设置了一些模板,新建的任务将按照模板来生成。l With defaults:这个最简单,表示按默认的配置来生成一个任务。在Heritrix中,一个任务对应一个描述文件。这个描述文件的默认的名称为order.xml。每次创建一个新任务时,都相当于生成了一个order.xml的文件

11、。文件中详细记录了Heritrix在运行时需要的所有信息。例如,它包括该用户所选择的Processor类、Frontier类、Fetcher类、抓取时线程的最大数量、连接超时的最大等待时间等信息。上面所说的4种创建抓取任务的方式,其实都是在生成一个order.xml文件。其中,第4种With defaults,则是直接拷贝默认的order.xml文件。在所创建的Eclipse工程或是命令行启动的Heritrix下载包中,该默认的order.xml文件均是放于profilesdefault目录下的。关于order.xml的细节,在此还不必深究。因为它里面所有的内容,都会在WebUI上看到。(3)

12、单击With defaults链接,创建一个新的抓取任务,如图所示。(4)在新建任务的名称上,填入“Sohu_news”,表示该抓取任务将抓取搜狐的新闻信息。在Description中随意填入字符,然后再在seeds框中,填入搜狐新闻的网址。这里需要解释一下seeds的含义。所谓seeds,其实指的是抓取任务的起始点。每次的抓取,总是需要从一个起始点开始,在得到这个起始点网页上的信息后,分析出新的地址加入抓取队列中,然后循环抓取,重复这样的过程,直到所有链接都分析完毕。(5)在上图中,设置了搜狐新闻的首页为种子页面,以此做为起始点。用户在使用时,也可以同时输入多个种子,每个URL地址单独写在一

13、行上,如图所示。图10-21 多个种子的情况当然,凭着目前的设置,还没法开始抓取网页,还需要对这个任务进行详细的设置。设置抓取时的处理链在上图中,seeds文本框下有一排按钮,单击“Modules”按钮,就进入了配置抓取时的处理链的页面下图所示。图10-22 配置处理链的页面从上而下,可以看到,需要配置的内容共有7项,其中CrawlScope和Frontier是两个最重要的组件。CrawlScope用于配置当前应该在什么范围内抓取网页链接。比如,如果选择BroadScope,则表示当前抓取的范围不受限制,但如果选择了HostScope,则表示抓取的范围在当前的Host内。从笔者的经验看来,在抓取时,无论是HostScope或PathScope都不能真正的限制到抓取的内容。需要对Scope内的代码进行一定的修改才可以,因此,暂时选择BroadScope来充当示例中的范围限定,其实也就是对范围不做任何的限定。即从开始,抓取任何可以抓取到的信息。如图10-23所示。图10-23 设置ScopeFrontier则是一个URL的处理器,它将决定下一个被处理的URL是什么。同时,它还会将经由处理器链所解析出来的URL加入到等待处

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号