《周恒搜索引擎原理》由会员分享,可在线阅读,更多相关《周恒搜索引擎原理(26页珍藏版)》请在金锄头文库上搜索。
1、搜索引擎原理使用Perl周周 恒恒1搜索引擎原理(使用Perl)主要目的v介绍典型的Web搜索引擎原理v使用Perl,来和大家一起完成一个简单Web搜索引擎的主要部分(perlBEE)v和大家一起交流,共同探讨Perl、推广Perl2搜索引擎原理(使用Perl)主流搜索引擎3搜索引擎原理(使用Perl)PerlBEE搜索引擎v假设在学校内部,不同组织维护着多个Http及Ftp服务器,向校内提供服务。v使用perl,编写一个简单的搜索引擎,检索这些服务器内的资源。vLinuxApache MySQL Perl(old version)4搜索引擎原理(使用Perl)基本要求v接受用户提交的关键字关
2、键字(q)v 在一个可以接受的时间内可以接受的时间内返回一个和该用户查询匹配匹配的网页信息列表列表(L)v可以接受的时间:v匹配:v列表:5搜索引擎原理(使用Perl)三段式工作流程v网页搜集:v预处理:v提供服务:6搜索引擎原理(使用Perl)网页搜集v网页数据库的基本策略:v1)定期搜集:v2)增量搜集:v网页的抓取策略:v1)“爬取”策略:v2)维护URL:7搜索引擎原理(使用Perl)定期搜索v定期搜索,隔一段时间后对整个网页重新搜集一遍,替换以前的内容。v优点:实现起来较简单v缺点:开销较大,两次搜集的时间间隔不会很短,“时新性(freshness)”不高8搜索引擎原理(使用Perl
3、)增量搜索v开始时搜集一遍,然后:v1.搜集新出现的网页v2.搜集更新了的网页v3.发现有网页已经不存在,则从库中删除9搜索引擎原理(使用Perl) “爬取”策略v将Web看作是一个有向图,搜集过程从给定的起始url集合S开始,沿着网页中的链接,按照一定的策略(先深/先宽/others)遍历。v这个过程象蜘蛛(spider)在蜘蛛网(Web)上爬行(crawl)10搜索引擎原理(使用Perl)维护URLv系统进行第一次全面的网页搜集之后,维护相应的URL集合,以后的搜索基于此集合。11搜索引擎原理(使用Perl)存储网页v搜集到的网页将存储到知识库(repository)中。v知识库包含每个网
4、页的docID,长度,URL以及网页的全部HTML。v由于网页数量会很多,所以,网页在存入知识库时要进行压缩处理。12搜索引擎原理(使用Perl)PerlBEE的网页搜集部分v手动执行脚本,进行资源搜集v从维护的url列表当中获得urlv支持http和ftp协议v获得的网页按照文件的形式存入知识库中。docIDurl获取的时间Web原文docIDurl获取的时间Web原文13搜索引擎原理(使用Perl)PerlBEE的网页搜集部分v对知识库进行索引,以便快速定位网页原文docIDPositionlength10123872123876914搜索引擎原理(使用Perl)预处理v链接分析v网页重要
5、程度计算v关键词提取15搜索引擎原理(使用Perl)链接分析v链接是分析网页重要的信息v1.链接描述文字准确的反映了网页的内容v2.网页之间的链接关系,反映了网页的重要程度(PageRank Google)16搜索引擎原理(使用Perl)网页重要程度计算vPageRank(Google)v指向一个网页的链接越多,说明这个网页越重要。v把整个web结构看作一个矩阵。N个网页就形成一个nn的矩阵。17搜索引擎原理(使用Perl)关键词提取v建立倒排索引v英文的分词v中文的分词WordDocIDDocID18搜索引擎原理(使用Perl)中文分词技术v中文分词是中文搜索引擎的核心v中文分词技术基于字符
6、串匹配的分词方法 基于统计的分词方法 19搜索引擎原理(使用Perl)基于字符串匹配的分词算法v正向减字最大匹配法(MM)v逆向减字最大匹配法(RMM)v将上述两种方法结合起来20搜索引擎原理(使用Perl)PerlBEE的预处理部分v读取网页v英文按照空格切开v中文按照正/逆向最大匹配的方法切词v将词编入索引文件21搜索引擎原理(使用Perl)查询服务v查询方式和匹配v结果排序v文档摘要22搜索引擎原理(使用Perl)查询方式和匹配v布尔模型v向量模型v概率模型23搜索引擎原理(使用Perl)文档摘要24搜索引擎原理(使用Perl)PerlBEE的查询服务.CGIv对用户输入进行切分v查找结果v对结果进行合并25搜索引擎原理(使用Perl)使用Perl谢谢大家26