《搜索引擎开发培训课程提纲》由会员分享,可在线阅读,更多相关《搜索引擎开发培训课程提纲(34页珍藏版)》请在金锄头文库上搜索。
1、搜索引擎开发培训课程提纲搜索引擎开发培训课程提纲前导知识wCore Javan Java技术手册w编译原理n Modern compiler implementation in Java w概率论n应用随机过程:概率模型导论w数据结构n JAVA算法了解搜索引擎wGoogle神话.w体验搜索引擎n把搜索范围限定在网页标题中intitle.n把搜索范围限定在特定站点中site.n把搜索范围限定在url链接中inurl.w做自己的搜索(代码)n实现制作索引的功能,实现搜索功能.遍历搜索引擎技术w30分钟实现的搜索引擎 .w准备工作环境(10分钟) .w编写代码(15分钟)w发布运行(5分钟)w实现
2、一个基于WEB结构的搜索引擎。(代码)网络蜘蛛w全文索引结构wNutch网络搜索软件w商业搜索引擎技术介绍w自己的网络蜘蛛(代码)n广度遍历n深度遍历n正则表达式BerkeleyDBwBerkeleyDB.原理与使用方法nB树讲解n基本API使用(代码)抓取技术w抓取网页wMP3 抓取wRSS 抓取w图片抓取w垂直行业抓取w抓取数据库中的内容w抓取本地硬盘上的文件提取文档中的文本内容w从HTML文件中提取文本n结构化信息提取n网页去噪whtmlparser的基本使用(代码)正文提取wDOM树原理wNekoHTML讲解wNekoHTML简单应用(代码)wNekoHTML用法的深入了解(代码)n递
3、归调用方法的使用从非HTML文件中提取文本wTEXT文件wPDF文件wWord文件wExcel文件wPowerPoint文件w流媒体内容提取中文分词处理wLucene 中的中文分词wLietu中文分词的使用w中文分词的原理n正向最大匹配(代码)查找词典算法w数字搜索树wTire树nTrie树的生成过程(代码)n使用Trie树的常规的API(代码)n理解Trie树的平衡过程(代码)nTrie树的改造以及应用(代码)n最佳前驱匹配(代码)w语法解析树隐码模型w发射概率概念w转移概率概念w统计一个词库中的发射概率和转移概(代码)w隐码模型的实际应用(代码)文档排重w语义指纹n语义指纹的概念n语义指纹
4、的实际应用(代码)中文关键词提取w关键词提取的基本方法w关键词提取的设计w从网页提取关键词w关键词提取的实际应用(代码)拼写检查w英文拼写检查w中文拼写检查w英文拼写检查的实际应用(代码)自动摘要w自动摘要技术w自动摘要的设计w具体的应用(代码)自动分类w自动分类的接口定义w自动分类的SVM方法实现w多级分类自动聚类w聚类的定义wK均值聚类方法wK均值实现语义搜索w准备语义词库w把语义词库转换成同义词索引库w在SynonymAnalyzer中使用同义词索引库w具体的代码解析(代码)nJUnit 介绍跨语言搜索w简繁转换(代码) Lucene 的索引库w理解 Lucene 的索引库结构w设计一个
5、简单的索引库(代码)创建和维护索引库w创建索引库w向索引库中添加索引文档w删除索引库中的索引文档w更新索引库中的索引文档w索引的合并w索引的定时更新w索引的备份和恢复(以上部分均有实现代码)优化使用 Lucenew索引优化w查询优化w实现字词混合索引w定制Tokenizerw查询大容量索引(以上部分均有实现代码) 用户界面设计与实现wLucene 搜索接口w搜索页面设计n用于显示搜索结果的 taglibn用于搜索结果分页的 taglibn设计一个简单的搜索页面w实现一个日文搜索项目的页面设计(代码)实现搜索接口w布尔搜索w指定范围搜索w设置过滤条件w搜索结果排序w搜索页面的索引缓存与更新(以上
6、部分均有实现代码)关键词高亮显示w结合以前学习的内容学会使用highlighter包(代码)n理解其包中基本类的使用n实际应用实现多维视图及相关搜索w实现多维视图nbitsSet介绍n计算机中进制转换和位移介绍wMoreLikeThis的具体使用(以上部分均有实现代码)实现AJAX自动完成w用AJAX技术设计搜索页面(代码)用Solr实现分布式搜索wSolr服务器端的配置与中文支持w把数据放进Solrw从Solr删除数据wSolrJ客户端搜索界面wSolr搜索结果优化wSolr的.net客户端wSolr的PHP客户端图像的OCR识别w调用OCR识别图像的过程 w基于SVM的OCR识别代码Web图分析w用BerkeleyDB存储Web图wWebGraph压缩存储Web图Thank youwQuestion?