自己动手写搜索引擎

上传人:飞*** 文档编号:47480754 上传时间:2018-07-02 格式:PDF 页数:320 大小:4.34MB
返回 下载 相关 举报
自己动手写搜索引擎_第1页
第1页 / 共320页
自己动手写搜索引擎_第2页
第2页 / 共320页
自己动手写搜索引擎_第3页
第3页 / 共320页
自己动手写搜索引擎_第4页
第4页 / 共320页
自己动手写搜索引擎_第5页
第5页 / 共320页
点击查看更多>>
资源描述

《自己动手写搜索引擎》由会员分享,可在线阅读,更多相关《自己动手写搜索引擎(320页珍藏版)》请在金锄头文库上搜索。

1、自己动手写搜索引擎建一个自己的Google 罗刚2009目录- 1 - 自己动手写搜索引擎. 1第 1 章 了解搜索引擎. 11.1 Google 神话 . 11.2 体验搜索引擎. 11.3 你也可以做搜索引擎. 41.4 本章小结 . 4第 2 章 遍历搜索引擎技术. 52.1 30 分钟实现的搜索引擎. 52.1.1 准备工作环境(10 分钟) . 52.1.2 编写代码( 15 分钟) . 62.1.3 发布运行( 5 分钟) . 92.2 搜索引擎基本技术. 14 2.2.1 网络蜘蛛 . 14 2.2.2 全文索引结构. 14 2.2.3 Lucene 全文检索引擎. 15 2.2

2、.4 Nutch 网络搜索软件. 15 2.2.5 用户界面 . 17 2.3 商业搜索引擎技术介绍. 17 2.3.1 通用搜索 . 17 2.3.2 垂直搜索 . 18 2.3.3 站内搜索 . 19 目录- 2 - 2.3.4 桌面搜索 . 21 2.4 本章小结 . 21 第 3 章 获得海量数据. 22 3.1 自己的网络蜘蛛. 22 3.1.1 BerkeleyDB 介绍 . 27 3.1.2 抓取网页 . 28 3.1.3 MP3 抓取 . 29 3.1.4 RSS 抓取 . 30 3.1.5 图片抓取 . 33 3.1.6 垂直行业抓取. 34 3.2 抓取数据库中的内容. 36 3.2.1 建立数据视图. 36 3.2.2 JDBC 数据库连接 . 36 3.2.3 增量抓取 . 38 3.3 抓取本地硬盘上的文件. 38 3.3.1 目录遍历 . 38 3.4 本章小结 . 40 第 4 章 提取文档中的文本内容. 41 4.1 从 HTML文件中提取文本 . 41 4.1.1 HtmlParser 介绍 .

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号