第12章_搜索引擎v1.1－金锄头文库

资源描述

《第12章_搜索引擎v1.1》由会员分享，可在线阅读，更多相关《第12章_搜索引擎v1.1（35页珍藏版）》请在金锄头文库上搜索。

1、第12章搜索引擎内容提要提供普适性的数据分析与服务的搜索引擎才能诠释出物联网更深入的智能化的内涵本章将介绍搜索引擎的基本概念体系结构和相关技术第11章介绍了海量信息存储技术和数据中心物联网对海量数据存储的需求三种网络存储体系结构数据中心的基本概念以及典型的数据中心如何降低数据中心的成本本章重点介绍搜索引擎的基本概念包括发展历程体系结构信息采集索引技术搜索服务并针对一个类GoogleWeb搜索引擎进行简要分析内容回顾 12 1搜索引擎简介12 2搜索引擎体系结构12 3物联网搜索引擎搜索引擎有哪些有哪三大模块组成本章内容 12 1搜索引擎简介 Web搜索引擎

2、一个能够在合理响应时间内根据用户的查询关键词返回一个包含相关信息的结果列表 hitslist 服务的综合体传统的Web搜索引擎是基于查询关键词的对于相同的关键词会得到相同的查询结果常见Web搜索引擎搜索引擎的发展搜索引擎的起源可追溯到1992年由NCSA维护的 What sNEW 页面第一个原始搜索引擎W3Catalog 1993 9 第一个Web机器人程序 WorldWideWebWanderer 1993 6MIT 里程碑 WebCrawler 1994 Lycos 1994 商用Google的建立斯坦福博士生LarryPage和SergeyBrin创立了Google

3、网络爬虫模块主要功能是通过对Web页面的解析根据Web页面之间的连接关系抓取这些页面并储存页面信息交给索引模块处理索引模块主要完成对于抓取的数据进行预处理建立关键字索引以便搜索模块输出搜索模块对于用户的关键词根据数据库的索引知识给出合理的搜索结果 Web搜索引擎的结构 Web搜索引擎的工作模式 12 1搜索引擎简介12 2搜索引擎体系结构12 3物联网搜索引擎搜索引擎具有怎样的体系结构和相关技术本章内容 Web搜索引擎的3个重要问题响应时间一般来说合理的响应时间在秒这个数量级关键词搜索得到合理的匹配结果搜索结果排序如何对海量的结果数据排序搜索引擎的体系结构信息采集

4、索引技术搜索服务体系结构信息采集搜索引擎体系结构信息采集索引技术搜索服务 Web搜索引擎的信息采集模块主要功能 Web上收集页面信息即Web机器人爬虫程序基于超文本传输协议 HypertextTransferProtocol 简称HTTP 体系结构信息采集搜索引擎体系结构信息采集索引技术搜索服务典型的基于超文本传输协议的网络应答网络爬虫程序的工作模式搜索引擎体系结构信息采集索引技术搜索服务网络爬虫程序根据HTTP协议发送请求并通过TCP连接接受服务器的应答由于Web搜索引擎需要抓取数以亿计的页面所以建立快速分布式的网络爬虫程序才能满足搜索引擎对性能和服务的要求

5、其物理实现可能是一组终端网络爬虫程序的工作模式搜索引擎体系结构信息采集索引技术搜索服务爬虫程序物理设备架构图网络爬虫程序的基础结构搜索引擎体系结构信息采集索引技术搜索服务网络爬虫程序的基础结构搜索引擎体系结构信息采集索引技术搜索服务首先网络爬虫程序从URL链接库读取一个或多个URL作为初始输入并进行域名解析然后根据域名解析结果 IP 访问Web服务器建立TCP连接发送请求接受应答储存接受数据并分析提取链接信息 URL 放入URL连接库里爬虫程序递归执行该过程直到URL链接库为空信息采集优化搜索引擎体系结构信息采集索引技术搜索服务网络连接优化策略持久性连接多进程

6、并发设计域名系统的缓存策略由于网络爬虫程序会频繁调用域名系统域名系统缓存可提高爬虫程序性能 LRU LeastRecentlyUsed 算法LFU LeaseFrequentlyUsed 算法FIFO First In First Out 算法网页抓取算法搜索引擎体系结构信息采集索引技术搜索服务深度优先算法在Web收集页面信息时使用一个或一组预定义URL地址开始然后根据页面内容中的超链接深度抓取页面直到搜索结束没有新的URL 广度优先算法在Web收集页面信息时使用一个或一组预定义URL地址开始然后根据页面内容中的超链接广度抓取页面抓取下一层的URL直到这一层的URL完全

7、被抓取直到搜索结束时返回网页抓取算法续搜索引擎体系结构信息采集索引技术搜索服务基于内容算法根据关键字主题文档的相似度和链接文本 Linkedtexts 估计链接值并确定相应搜索策略的算法链接文本是包含对URL链接解释说明和内容摘要的文字信息基于HITS的算法主要思想在抓取Web页面时采用Authority Hub抓取策略 Authority表示该页面被其他页面所引用的次数页面入度值 in degreevalue Hub表示其他页面引用该页面的次数页面出度值 out degreevalue 网页抓取算法续2 搜索引擎体系结构信息采集索引技术搜索服务 PageRank

8、Google的传奇技术定义PageRank 我们假设有T1 Tn个页面指向页面A 即引用参数d是一个阻尼因子其取值区间属于 0 1 我们通常取值为0 85 C A 定义为指向页面A的其他页面的连接数页面A的PageRank或PR A 值可以通过下面的公式得到注意 PageRank值是Web页面的概率分布表示所以所有Web页面的PageRank值的和是1 体系结构索引技术搜索引擎体系结构信息采集索引技术搜索服务 Web爬虫抓取回来的页面信息需要放入索引数据库里索引建立的好坏对于搜索引擎有很大的影响优秀的索引能够显著的提高搜索引擎系统运行的效率及检索结果的品质文本分析技术是

9、建立数据索引信息的支撑技术索引建立预处理搜索引擎体系结构信息采集索引技术搜索服务当Web搜索引擎获得数据信息以后首先需要对数据进行预处理如将句子切分成有意义的词汇由于中文的特殊性在切分句子时会产生二义性如何合理的切分词汇是一个技术难题中文分词完全不同于英文分词英文行文中单词间以空格分隔而中文只有字句段有明显分隔符唯独词没有形式上的分隔符存在索引建立倒排文件模型搜索引擎体系结构信息采集索引技术搜索服务倒排文件 invertedfile 是指一个词汇集合W和一个文档集合D之间对应关系的数据结构建立倒排文件索引是建立索引数据库的核心工作索引建立倒排文件模型

10、搜索引擎体系结构信息采集索引技术搜索服务索引模块架构体系结构搜索服务搜索引擎体系结构信息采集索引技术搜索服务搜索服务是Web搜索引擎工作流程的最后一步根据用户提交的查询关键字展开搜索将匹配结果返回给用户搜索服务的好坏直接影响Web搜索引擎的用户满意程度搜索服务结果显示搜索引擎体系结构信息采集索引技术搜索服务接受用户的输入提交用户搜索请求根据搜索结果列表合理的展示给用户在保护隐私的前提下记录用户使用行为的详细信息以便提高下次服务的满意度搜索服务网页快照搜索引擎体系结构信息采集索引技术搜索服务 Web上的数据每时每刻都在变化着所以随时存在着检索到的页面信

11、息已经不存在的可能 Web搜索引擎为了提高服务质量需要对搜索到的页面信息进行快照以便在原来页面信息失效的情况下保证用户能够通过快照功能查看页面类GoogleWeb搜索引擎的实例分析类Google搜索引擎的架构URL服务器Web页面抓取器存储服务器URL解释器排序器PageRank搜索器类GoogleWeb搜索引擎的实例分析 Google数据仓库的结构类GoogleWeb搜索引擎的实例分析查询评估流程解析查询 Query 把单词转化成wordID从每个单词的短桶文档列表开始查找扫描文档列表直到有一个文档匹配了所有的搜索词语计算这个文档对应的查询的评分如果到达短桶的文档列表结尾从

12、每个单词的全桶 fullbarrel 文档列表开始查找跳到第4步如果没有到达任何文档列表的结尾跳到第4步根据评分对匹配的文档排序然后返回评分最高的k个 12 1搜索引擎简介12 2搜索引擎体系结构12 3物联网搜索引擎物联网背景下的搜索引擎应具有哪些新特点本章内容 12 3物联网搜索引擎物联网时代搜索引擎的新思考从智能物体角度思考搜索引擎与物体之间的关系主动识别物体并提取有用信息从用户角度上的多模态信息利用使查询结果更精确更智能更定制化本章小结内容回顾本章介绍了搜索引擎的发展历程重点讨论了搜索引擎的体系结构信息采集索引技术搜索服务并提出了物联网背景下搜索引擎的新思考重点掌握掌握Web搜索引擎的三大模块网络爬虫模块索引模块搜索模块的作用了解搜索引擎需要解决的三个问题响应时间关键词搜索搜索结果排序本章小结重点掌握续掌握搜索引擎信息采集的基本流程以及网络爬虫程序的基本结构和工作流程理解优化网络爬虫程序的途径掌握常见的网页抓取算法的特点和流程了解索引技术预处理的困难了解倒排文件模型举例说明GoogleWeb搜索引擎的架构 Thankyou

展开阅读全文