搜索引擎的未来发展趋势ppt培训课件

上传人:aa****6 文档编号:57202783 上传时间:2018-10-20 格式:PPT 页数:70 大小:4.07MB
返回 下载 相关 举报
搜索引擎的未来发展趋势ppt培训课件_第1页
第1页 / 共70页
搜索引擎的未来发展趋势ppt培训课件_第2页
第2页 / 共70页
搜索引擎的未来发展趋势ppt培训课件_第3页
第3页 / 共70页
搜索引擎的未来发展趋势ppt培训课件_第4页
第4页 / 共70页
搜索引擎的未来发展趋势ppt培训课件_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《搜索引擎的未来发展趋势ppt培训课件》由会员分享,可在线阅读,更多相关《搜索引擎的未来发展趋势ppt培训课件(70页珍藏版)》请在金锄头文库上搜索。

1、,搜索引擎与搜索经济,本讲提纲,搜索引擎的发展简史 搜索引擎的分类 搜索引擎的技术原理 搜索经济的诞生 搜索引擎的未来发展趋势,1 搜索引擎的发展简史,-,搜索引擎的鼻祖:Archie,1990年由Montreal的McGill University(麦吉尔大学)学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)实际上是一个可搜索的FTP文件名列表,现代搜索引擎的起源:Wanderer,1993年MIT 的学生Matthew Gray开发了World Wide Web Wanderer,它是世界上第一个利用网页之间的链接关

2、系来监测Web发展规模的机器人(Robot)程序。最开始只是用来统计互联网上的服务器数量,之后发展为也能捕获网址。,Yahoo,1994.4美籍华人Jerry Yang(杨致远)和David Filo完成了一套搜索软件。最初Yahoo的数据是手工输入的,实际上只是一个可搜索的目录。1995年1月,正式成立Yahoo网站,第一个现代意义上的搜索引擎:Lycos,1994.7 Carnegie Mellon University 的Michael Mauldin 将 John Leavitt的蜘蛛程序接入到其索引程序中,创建了Lycos.提供了前缀匹配和字符相近限制、网页自动摘要、数据量相对较大。

3、,Infoseek,1994年底,Infoseek推出,沿袭Yahoo!和Lycos的概念。友善的用户界面、大量附加服务使其后来者居上。1995.12与Netscape的战略性协议使它变得很强势2001年2月,Infoseek改用Overture的搜索结果,第一个元搜索引擎: Metacrawler,元搜索引擎(A Meta Search Engine Roundup)。 用户提交搜索后,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和

4、 Oren Etzioni开发的 Metacrawler。,第一个支持自然语言搜索的搜索引擎: AltaVista,1995年12月出现(AltaVista Public Beta Press Release )。AltaVista是第一个支持自然语言搜索的搜索引擎。2003年AltaVista被Overture收购,后者是Yahoo的子公司。,搜索引擎的后来之王:Google,1995年,佩奇来到斯坦福读博士,开始网络链接结构方面的研究项目BackRub。之后,他和布林提出了PageRank技术,用于对网页评级之后用于搜索引擎,改写了搜索引擎的定义,建立了Google。,搜索引擎的后来之王:

5、Google,Google在斯坦福引起了人们的关注。佩奇开始准备出售该技术,但是没有成功。Sun公司创始人的投资,随后成立公司。2000年和Yahoo合作,一飞冲天。2004年7月上市,市值250亿,增长速度超过微软。,Google之特点,专注、进取、朴素、低调、神话般的创业故事,中文搜索引擎老大:百度,2000.1李彦宏创立了百度。2001.8发布百度测试版。目前是最大的中文搜索引擎MP3搜索特色,百度的特点,专注于技术专注于中文搜索,北大天网,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务。利用教育网优势,有强大的FTP搜索功能。,中国互联网

6、使用率,2007年7月中国互联网信息中心第20次网络调查报告,2 搜索引擎的分类,-,目录搜索引擎,以人工方式或半自动方式搜集信息信息准确、导航质量缺点是需要人工介入、维护量大、信息量少、信息更新不及时,机器人搜索引擎,由一个称为蜘蛛(Spider)的机器人程序自动搜索信息优点:信息量大、更新及时、无需人工干预缺点:返回信息过多,有很多无用信息。,元搜索引擎,利用其他搜索引擎返回统一的搜索结果。返回信息量更大、更全。缺点是不能充分使用所有搜索引擎的功能,其他搜索产品,建站时间 1999.5世界排名20站长年龄22岁收购前月收入100万收购价格,号称5000万,实际可能1000万,3 搜索引擎的

7、技术原理,-,搜索引擎的基本要求,接受用户提交的关键字,然后 在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表,搜索引擎工作流程,网页搜集,定期搜集,定期搜索,隔一段时间后对整个网页重新搜集一遍,替换以前的内容。 优点:实现起来较简单 缺点:开销较大,两次搜集的时间间隔不会很短,“时新性(freshness)”不高,增量搜集,开始时搜集一遍,然后: 1.搜集新出现的网页 2.搜集更新了的网页 3.发现有网页已经不存在,则从库中删除,“爬取”策略,将Web看作是一个有向图,搜集过程从给定的起始url集合S开始,沿着网页中的链接,按照一定的策略(先深/先宽/others)遍历。这个过程

8、象蜘蛛(spider)在蜘蛛网(Web)上爬行,WWW工作原理,爬取策略,维护URL,系统进行第一次全面的网页搜集之后,维护相应的URL集合,以后的搜索基于此集合。 每搜到一个网页,如果它发生变化并有新的URL,就将新URL也放到集合中。,人工添加,网站拥有者主动向搜索引擎提交自己的网址系统在一定时间内定向向那些网站派出“蜘蛛”程序,扫描并收集有关信息。,存储网页,搜集到的网页将存储到知识库(repository)中。知识库包含每个网页的docID,长度,URL以及网页的全部HTML。由于网页数量会很多,所以,网页在存入知识库时要进行压缩处理。,预处理,关键词的提取 重复或转载网页的消除 链接

9、分析 网页重要程度的计算,关键词的提取,什么是倒排文件(inverted file)?需要从网页源文件中提取出能够代表它的内容的一些特征,而关键词就是这种特征最好的代表。其中涉及到英文的分词和中文的分词。对一篇网页来说,有效的词语数量一般是200左右。,重复或转载网页的消除,据2003年的有关数据表示,互联网上网页的重复率平均大约为4。在预处理阶段,要将重复或转载网页消除掉。,链接分析,链接是分析网页重要的信息1.链接描述文字准确的反映了网页的内容2.网页之间的链接关系,反映了网页的重要程度(PageRank Google),网页重要程度计算,PageRank(Google) 指向一个网页的链

10、接越多,说明这个网页越重要。把整个web结构看作一个矩阵。N个网页就形成一个nn的矩阵。,查询服务,查询方式和匹配 结果排序 文档摘要,查询方式和匹配,查询方式指的是系统允许用户提交查询的方式。 查询短语分词 对查询短语进行分词匹配 将查询关键词与倒排文件的索引词进行匹配,结果排序,按照某种评价方式,将搜索结果以某种顺序显示出来。评价方式 相关性 早期采用基于词汇出现频度的方法 词在不同文档中出现的频率PageRank 在预处理阶段形成重要性指标,和查询阶段的相关性指标相结合。,文档摘要,静态生成方式 预处理阶段生成,如取网页的前512个字节,或者取每一段的第一句话。动态生成方式 在查询时,根

11、据查询关键词的位置动态生成。,搜索引擎系统的体系结构,4 搜索经济的诞生,-,互联网的重心发展历程,注意力经济(眼球经济),提供网上图片等各种信息注重提供免费信箱、聊天室等各种服务吸引人来,注重会员数。,从眼球经济到拇指经济,被动,主动,搜索力经济,拇指变成了十指,被动变成了主动搜索成了网络经济的引擎和发动机,搜索引擎的盈利模式,搜索引擎最初并没有显示出价值,只是一个免费的附加服务。PageRank算法的诞生,使得网络盈利成为可能根据搜索结果显示相应的广告,这是网络广告的真正创新,搜索引擎的盈利模式,竞价排名 1998年Overture推出收费竞价排名服务,谁出的钱多,谁排前面,搜索引擎成了摇

12、钱树。搜索与购物网站绑定,时长竞价排名,按天竞价消除恶意点击,搜索等于搜钱,2007年中国搜索引擎市场规模达29.0亿元,比上一年增长108.3% 艾瑞咨询,中国搜索引擎市场份额,中美日市场规模对比,重构搜索力,2003年8月,搜索引擎重新回到Yahoo首页的突出位置。 并不完全是搜索引擎可以赚钱了 关键是它还可以整合其现有的业务资源2004年8月,搜狐推出了搜索引擎搜狗。2003年开始,微软重组MSN部门,并希望在下一代操作系统中集成搜索。亚马逊推出了A9网站,专注于购物搜索,搜索引擎大战,微软数次提出要收购Google. 结果被Google挖走李开复IBM也推出了自己的搜索技术搜索引擎和门

13、户网站之争 养虎为患 不得不养复杂的竞争合作关系,中国搜索用户的首选,中国高端搜索用户的首选,“百度”视频,http:/ 搜索引擎的未来发展趋势,-,搜索引擎自身的发展趋势,专业化 主题化 垂直搜索引擎 个性化 搜索工具条 桌面搜索 智能化 本地化 基于位置的搜索服务,技术更复杂,应用更简单,搜索引擎所引发的互联网变化,搜索引擎的革命引发互联网应用模式、商务模式和业务形态的革命 搜索将成为一个网站的必备配置 搜索引擎的综合化 基于搜索引擎的信息增值业务竞争情报系统、商务搜索、8848的购物搜索、Google信箱,搜索引擎的重要性,从内容为王到搜索为王 从搜索服务到搜索平台 基于搜索平台的搜索增值服务,我的体会,搜索引擎中的土和洋。搜索引擎是一个技术性很强的东西,但是又需要很多技术之外的东西搜索引擎是一个很容易垄断的东西,但是又很容易打破垄断的东西。 技术强、成本低、见效快、黏度低搜索经济刚刚开始,搜索机会多多。,推荐文献,李晓明, 闫宏飞, 王继民 (2005). 搜索引擎 原理、技术与系统. 北京:科学出版社. 彭鹏, 梁春晓 (2004). 搜索革命. 北京:企业管理出版社. 东山樵夫 (2005). 百度如此专注. 北京:东方出版社. 美 约翰. 巴特利 (2006). 搜. 北京:中信出版社.,谢谢大家,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号