nutch配置过程

上传人:s9****2 文档编号:468310414 上传时间:2022-12-10 格式:DOC 页数:8 大小:123KB
返回 下载 相关 举报
nutch配置过程_第1页
第1页 / 共8页
nutch配置过程_第2页
第2页 / 共8页
nutch配置过程_第3页
第3页 / 共8页
nutch配置过程_第4页
第4页 / 共8页
nutch配置过程_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《nutch配置过程》由会员分享,可在线阅读,更多相关《nutch配置过程(8页珍藏版)》请在金锄头文库上搜索。

1、Nutch 搜索引擎数据获取1 基本原理:1.1 体系结构设计:网络蜘蛛一般都具有 3 模块: HTTP 下载模块,链接分析模块,下载控制模 块。HTTP 下载模块利用 http 网络协议下载,获取并存储内容。 链接分析模块能提取网页中的超链接,用来获得后续页面入口。 下载控制模块控制页面访问次序、更新策略、访问队列调度等工作。工作流程:1、访问 URL 数据库,读取 URL 入口地址,生成内存访问队列。2、寻找空闲的 HTTP 下载模块,分配 URL ,启动下载任务。3、HTTP 下载模块访问互联网,得到的网页内容放入结果队列。4、定期保存到网页数据库,为后续索引做准备。5、链接分析模块提取

2、页面内的新连接,存入 URL 数据库等待下载。6、重复上述过程直到全部下载完成,等待新的任务。1.2 访问策略与算法: 网络蜘蛛访问一个网站,一般入口页面为网站的首页或者sitemap 页面。从这个页面通过链接分析,寻找并访问后续页面地址。网络蜘蛛对网站的访问有深度限制, 一般在 35 层,遍历策略一般采用广度 优先算法和深度优先算法。从应用角度看, 广度优先能尽可能的比较平均的获取不同网站的内容, 比较 适合于大型搜索引擎系统初期网页库的建立; 深度优先在设计师比较容易, 对垂 直搜索或者站内搜索比较合适。2 Nutch 网络蜘蛛2.1 概述Nutch系统包含一个功能强大的网络蜘蛛。这个网络

3、蜘蛛的核心是Crawl工具。这个工具根据事先设定的入口 URL 列表,不断地自动下载页面,知道满足 系统预设的停止条件。 Crawl 本身是另外一系列网页下载相关工具的组合。Nutch 主要的 5 个操作命令:Admin :用来创建一个新的 WEB数据库,WEB数据库实际上就是URL数 据库,存储了网络爬虫抓取的网页信息和网页之间的链接信息。Inject :添加数据下载的入口链接。首先读取给定的纯文本格式文件,获取URL 列表,作为入口地址添加到已有的 web 数据库中。Gen erate生成待下载URL列表。按照WEB数据库格式提取未下载的URL, 以fetchlist形式给出,为下载做好准

4、备。Fetch:按照HTTP协议访问互联网,获取网页数据的具体内容。下载过程 有下载列表和操作参数控制,直到下载完毕。Updatedb:用来添加网页下一层链接的 URL。从已经下载文件中获取 URL 链接,更新web数据库,添加到已有的 web数据库。下载的数据存储主要以目录文件形式存放,具体内容包括 WEB 数据库、数 据段(segmentS和数据索引。1、web 数据库(web db)WEB数据库实际上就是URL数据库,存储了网络爬虫抓取的网页信息和网 页之间的链接信息。Web数据库之为网络爬虫服务,并不参与搜索引擎后面的检 索和加载。2、数据段(segmentS数据段存放网络爬虫每一次抓

5、取使用的待下载列表、 以获得的网页内容和本 次内容的索引。数据段的具体内容会随着重新抓取更新。 数据段存储的数据内容 主要饱和3中类型:待下载列表(fecthlist)是从web数据库中得到的,用来指定贮备抓取的网 页地址。已获得的网页内容(fetcher output)是下载的具体网页内容,网页内容采用 索引方式存放的数据段中。数据段索引(index)采用Lucene格式,是当前已经下载内容的索引。3、数据索引数据索引时数据段索引的合并和汇集。树荫的数据包含了系统所有的页面, 以倒排索引的形式组织。2.2 Nutch抓取模式分类目前使用比较多的搜索引擎可以划分为3类:全网搜索引擎,垂直搜索引

6、擎和企业搜索引擎。全网搜索引擎对海量信息的收录数量比较关注,希望尽可能的抓取网页,避 免遗漏重要网站。垂直搜索引擎对信息的实时性和内容的的精确性要求比较高, 希望能尽快的针对性的下载信息,比较快的下载更新频率。企业搜索引擎主要考 虑如何以尽量小的代价,完成指定网站的信息下载,建立几乎没有遗漏的本地文 档检索系统。为满足不同类型的需要,nutch的网络蜘蛛提供了两种工作模式:局域网抓 取和互联网全网抓取。局域网抓取采用单一命令完成网页下载,是只对数量较少的网站或者某一个 网站进行的网页下载方式。互联网抓取使用命令组合完成网页下载,是针对网页数量比较多或者直接从 开放目录终不过得到的海量网站的下载

7、方式。3 Nutch局域网抓取Nutch网络蜘蛛的工作机制非常清晰。首先读取文本文件,增加待下载的 URL列表,然后根据配置文和命令行参数,启动下载线程,从目标网站下载网 页,得到网页信息保存到本地存储结构中。3.1本地测试下载检索1、启动tomcat服务。2、打开nutch工作目录D:nutch-0.9,创建weburls文件,文件中添加本次测 试地址,作为网络蜘蛛抓取的网站入口地址,文件内容为:http:/127.0.0.1:8888/examweb/index.htm(注:examweb 文件存放在 D:Tomcat6.0webappsROOT examweb下,里面为本地测试准备的几个

8、 htm网页 文件)。3、 打开nutch配置文件目录 D:nutch-0.9conf,修改URL过滤规则文件 crawl-urlfilter.txt。该文件使用正则表达式来限定入口网站内那些URL需要下载。过滤规则中以“ +”表示允许下载,以“ *”表明 0 或者任意多个字符。具体修改如下:+勺即:/127.0.0.1:8888/表示允许下载当前站点内任何 URL 页面。4、打开 nutch 配置文件目录 D:nutch-0.9conf,修改 nutch-site.xml 文件。 修改如下:Value值作为被抓取网站的名称。本次抓取的网站名设置为.5、启动下载过程5.1、执行 Cygwin

9、。5.2、 在 Cygwin 命令行中输入 cd /cygdrive/d/nutch-0.9,进入到 Nutch 目录5.3、 输入命令:bin/nutch crawl weburls.txt -dir localweb -depth 3 -opN 100 -hreads 1回车执行。命令行中参数指明了抓取行为。含义如下:dir 指定存放爬行结果的目录。-depth 3 表明需要抓取的页面深度为 3层内容。-topN 100 表明只抓取每一层的前 N 个 URL ,本次为每层前 100个。-threads 1 指定 crawl 只采用一个下载线程进行下载。本次完成后会在 Nutch 根目录中建

10、立 localweb 目录,存放爬行的结果。5.4修改D:nutch-0.9conf下的nutch-site.xml文件,增加检索目录属性指定 器,读取数据的目录,修改后文件内容如下:searcher.dirD:nutch-0.9localweb5.5 、 Cygwin 命 令 窗 口 下 执 行 命 令 : bin/nutch org.apache.nutch.searcher.NutchBean hat命令含义即为检索包含 hat 的网页。如上述步骤能顺利完成,表明本地测试完成。3.2、下载多个网站 多个网站下载和本地测试方式基本相同,需要修改个别规则。1 在 Nutch 根目录中建立文本

11、文件 multiurls.txt 文件,里面存放希望下载文件列表,自己测试的内容为:http:/.c n/ http:/.c n/ http:/auto.si .c n/ http:/www.ch in http:/.c n/ http:/.c n/ http:/ http:/c n. http:/ http:/ http:/www.imau.edu.c n 2修改URL过滤规则文件crawl-urlfilter.txt,允许下载任意站点。修改后如下: #accept hosts in MYDOMAIN.NAME+A默认允许所有的网站# skip everythi ng else3启动Cy

12、gwin,进入Nurch目录,执行以下命令:bin/nutch crawl weburls.txt ir multiweb -depth 2 -opN 100 -hreads 5下载内容存放在multiweb目录中,同时建立索引。4修改检索规则,修改nutch-site.xml文件,修改后如下:http.age nt.n ame*v/value v/descripti onsearcher.dirD:nu tch-0.9multiweb v/con figurati on5 执行检索命令 bin/nutch org.apache.nutch.searcher.NutchBea汽车结果如下:$ bin/nutch 0尸号越pachE汽牛Fotal hits : G10 20100312181903/http:/auto ohu.cqe# 点减法翟葡;车主盲区:汽车维修保养让精品坊搜狐汽.1 20100312181903/http :/www_pcaiito .coin. cn/站群:电脑网:汽车网:游戏网:女后维修保养汽车用品2 20100312181903/http:/www.aatohoitie 20100312181?02/http:/www,xcar- 20100312181903/http :/auto bs ina,.cD 限类别微型车小型车紧凑型车中型5

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号