开源搜索引擎nutch的研究 生产实习报告

上传人:飞*** 文档编号:43379004 上传时间:2018-06-05 格式:DOC 页数:29 大小:202.50KB
返回 下载 相关 举报
开源搜索引擎nutch的研究 生产实习报告_第1页
第1页 / 共29页
开源搜索引擎nutch的研究 生产实习报告_第2页
第2页 / 共29页
开源搜索引擎nutch的研究 生产实习报告_第3页
第3页 / 共29页
开源搜索引擎nutch的研究 生产实习报告_第4页
第4页 / 共29页
开源搜索引擎nutch的研究 生产实习报告_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《开源搜索引擎nutch的研究 生产实习报告》由会员分享,可在线阅读,更多相关《开源搜索引擎nutch的研究 生产实习报告(29页珍藏版)》请在金锄头文库上搜索。

1、 编号:江江西西理理工工大大学学实实 习习 报报 告告 本本信息工程 学院 计算机科学与技术 专业年级 2006 班号 063 姓名 王 军 实习性质 生产实习 实习地点 校内 实习期限自 2009 年 11 月 30 日 至 12 月 25 日 实习指导教师 刘发升 2009 年 12 月 18 日 任务书任务书开源搜索引擎开源搜索引擎 nutchnutch 的研究的研究主要工作:nutch 是一个使用 java 语言开发的开源搜索引擎,其包含了丰富的搜索引擎思想以及基本的搜索引擎实现,并且可扩展实现个性化搜索引擎。依据Lucene + nutch 搜索引擎开发 ,下载、安装、调试 nutc

2、h,使其实现简单的搜索功能,并且,提交开源搜索引擎 nutch 的研究报告。目录目录一.搜索引擎的软件结构.5 1.网页爬取部分.5 1.1.网页信息抓取原理.5 1.2.深度优先搜集策略.6 1.3.IP 段扫描搜集策略.6 1.4.深度优先搜集策略.6 2.数据存储与索引网页爬取部分.7 2.1.数据存储.7 2.2.网页索引.7 3.前端用户查询的处理.8 3.1 用户检索与结果排序.8 3.2 网页检索工具与接口.8 二.开源搜索引擎 nutch 的软件架构.8 1.Nutch 概述.8 2.Nutch 中的索引.9 3.Nutch 中的查询.9 4.Nutch 中的相关度计算.9 4

3、.1Nutch 排序因素.9 4.2Nutch 链接分析.10 4.3Nutch 相关度计算.10 5.Nutch 分词和预处理.11 5.1Nutch 分析器.11 5.2Nutch 中文分词.11 6.Nutch 文档处理.11 7.Nutch 分布式检索.12 7.1Nutch 分布式文件系统.12 7.2Nutch 分布式检索概述.12 7.3Nutch 分布式检索器.12 三.使用 nutch 开发搜索引擎的步骤.13 1.Nutch 开源搜索引擎的部署.13 1.1.Cygwin 软件安装.13 1.2.Nutch 下载与安装.13 1.3.Nutch 系统环境测试.13 1.4.Nutch 搜索页面部署.14 2.Nutch 系统调试与开发.14 2.1.Eclipse 中加载 Nutch.14 2.2.Nutch 工程编译与发布.15 3.Nutch 网站抓取.

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号