搜索引擎的未来发展趋势

上传人:aa****6 文档编号:50763679 上传时间:2018-08-10 格式:PPT 页数:70 大小:5MB
返回 下载 相关 举报
搜索引擎的未来发展趋势_第1页
第1页 / 共70页
搜索引擎的未来发展趋势_第2页
第2页 / 共70页
搜索引擎的未来发展趋势_第3页
第3页 / 共70页
搜索引擎的未来发展趋势_第4页
第4页 / 共70页
搜索引擎的未来发展趋势_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《搜索引擎的未来发展趋势》由会员分享,可在线阅读,更多相关《搜索引擎的未来发展趋势(70页珍藏版)》请在金锄头文库上搜索。

1、搜索引擎与搜索经济本讲提纲v搜索引擎的发展简史 v搜索引擎的分类 v搜索引擎的技术原理 v搜索经济的诞生 v搜索引擎的未来发展趋势1 搜索引擎的发展简史-搜索引擎的鼻祖:Archiev1990年由Montreal的 McGill University( 麦吉尔大学)学生 Alan Emtage、Peter Deutsch、Bill Wheelan发明的 Archie(Archie FAQ)v实际上是一个可搜索 的FTP文件名列表现代搜索引擎的起源:Wandererv1993年MIT 的学生Matthew Gray开发了World Wide Web Wanderer,它是世界上第一个利用 网页之

2、间的链接关系来监测Web发展规模的机器 人(Robot)程序。v最开始只是用来统计互联网上的服务器数量,之 后发展为也能捕获网址。Yahoov1994.4美籍华人Jerry Yang(杨致远)和David Filo完成了一套搜索软 件。v最初Yahoo的数据是 手工输入的,实际上 只是一个可搜索的目 录。v1995年1月,正式成立 Yahoo网站 第一个现代意义上的搜索引擎:Lycosv1994.7 Carnegie Mellon University 的 Michael Mauldin 将 John Leavitt的蜘蛛 程序接入到其索引程 序中,创建了Lycos.v提供了前缀匹配和字 符相

3、近限制、网页自 动摘要、数据量相对 较大。Infoseekv1994年底,Infoseek推出,沿 袭Yahoo!和Lycos的概念。v友善的用户界面、大量附加服 务使其后来者居上。v1995.12与Netscape的战略性 协议使它变得很强势v2001年2月,Infoseek改用 Overture的搜索结果第一个元搜索引擎: Metacrawlerv元搜索引擎(A Meta Search Engine Roundup) 。 用户提交搜索后,由元搜索引擎负责转换处理 后提交给多个预先选定的独立搜索引擎,并将 从各独立搜索引擎返回的所有查询结果,集中 起来处理后再返回给用户。v第一个元搜索引擎,

4、是Washington大学硕士生 Eric Selberg 和 Oren Etzioni开发的 Metacrawler。第一个支持自然语言搜索的搜索引 擎: AltaVista v1995年12月出现(AltaVista Public Beta Press Release )。vAltaVista是第一个支持自 然语言搜索的搜索引擎。v2003年AltaVista被 Overture收购,后者是 Yahoo的子公司。搜索引擎的后来之王:Googlev1995年,佩奇来到斯 坦福读博士,开始网 络链接结构方面的研 究项目BackRub。v之后,他和布林提出 了PageRank技术,用 于对网页评

5、级v之后用于搜索引擎, 改写了搜索引擎的定 义,建立了Google。搜索引擎的后来之王:GooglevGoogle在斯坦福引起了人们的关注。v佩奇开始准备出售该技术,但是没有成功。vSun公司创始人的投资,随后成立公司。v2000年和Yahoo合作,一飞冲天。v2004年7月上市,市值250亿,增长速度超过微软 。Google之特点v专注、进取、朴素、低调、神话般的创业故事中文搜索引擎老大:百度v2000.1李彦宏创立了 百度。v2001.8发布百度测试 版。v目前是最大的中文搜 索引擎vMP3搜索特色百度的特点v专注于技术v专注于中文搜索北大天网v由北大计算机系网络 与分布式系统研究室 开发

6、,于1997年10月 29日正式在CERNET 上提供服务。v利用教育网优势,有 强大的FTP搜索功能 。中国互联网使用率使用率 使用率 信息渠道生活助手 网络新闻77.3% 网络求职15.2% 搜索引擎74.8% 网络教育24.0% 写博客19.1% 网络购物25.5% 交流工具 网络销售4.3% 即时通信69.8% 网上旅行预 订3.9%电子邮件55.4% 网上银行 20.9% 娱乐工具 网上炒股14.1% 网络音乐68.5% 网络影视61.1% 网络游戏47.0% 2007年7月中国互联网信息中心第20次网络调查报告2 搜索引擎的分类-目录搜索引擎v以人工方式或半自动 方式搜集信息v信息

7、准确、导航质量v缺点是需要人工介入 、维护量大、信息量 少、信息更新不及时机器人搜索引擎v由一个称为蜘蛛( Spider)的机器人程 序自动搜索信息v优点:信息量大、更 新及时、无需人工干 预v缺点:返回信息过多 ,有很多无用信息。元搜索引擎v利用其他搜索引擎返 回统一的搜索结果。v返回信息量更大、更 全。v缺点是不能充分使用 所有搜索引擎的功能其他搜索产品v 建站时间 1999.5v 世界排名20v 站长年龄22岁v 收购前月收入100 万v 收购价格,号称 5000万,实际可能 1000万3 搜索引擎的技术原理-搜索引擎的基本要求v接受用户提交的关键字,然后 在一个可以接受的 时间内返回一

8、个和该用户查询匹配的网页信息列 表搜索引擎工作流程网页搜集v网页数据库的基本策略: 1)定期搜集: 2)增量搜集: v网页的抓取策略: 1)“爬取”策略: 2)维护URL:定期搜集v定期搜索,隔一段时间后对整个网页重新搜集一 遍,替换以前的内容。 v优点:实现起来较简单 v缺点:开销较大,两次搜集的时间间隔不会很短 ,“时新性(freshness)”不高增量搜集v开始时搜集一遍,然后: v1.搜集新出现的网页 v2.搜集更新了的网页 v3.发现有网页已经不存在,则从库中删除“爬取”策略v将Web看作是一个有向 图,搜集过程从给定的 起始url集合S开始,沿 着网页中的链接,按照 一定的策略(先

9、深/先宽 /others)遍历。v这个过程象蜘蛛( spider)在蜘蛛网( Web)上爬行WWW工作原理客户端新浪服务 器端发出请求发回网页爬取策略维护URLv系统进行第一次全面的网页搜集之后,维护相应 的URL集合,以后的搜索基于此集合。 v每搜到一个网页,如果它发生变化并有新的URL ,就将新URL也放到集合中。人工添加v网站拥有者主动向搜索引擎提交自己的网址v系统在一定时间内定向向那些网站派出“蜘蛛”程 序,扫描并收集有关信息。存储网页v搜集到的网页将存储到知识库(repository)中 。v知识库包含每个网页的docID,长度,URL以及 网页的全部HTML。v由于网页数量会很多,

10、所以,网页在存入知识库 时要进行压缩处理。预处理v关键词的提取 v重复或转载网页的消除 v链接分析 v网页重要程度的计算关键词的提取v什么是倒排文件(inverted file)?v需要从网页源文件中提取出能够代表它的内容的 一些特征,而关键词就是这种特征最好的代表。v其中涉及到英文的分词和中文的分词。v对一篇网页来说,有效的词语数量一般是200左 右。重复或转载网页的消除v据2003年的有关数据表示,互联网上网页的重复 率平均大约为4。v在预处理阶段,要将重复或转载网页消除掉。链接分析v链接是分析网页重要的信息v1.链接描述文字准确的反映了网页的内容v2.网页之间的链接关系,反映了网页的重要

11、程度 (PageRank Google)网页重要程度计算vPageRank(Google) v指向一个网页的链接越 多,说明这个网页越重 要。v把整个web结构看作一 个矩阵。N个网页就形 成一个nn的矩阵。查询服务v查询方式和匹配 v结果排序 v文档摘要查询方式和匹配v查询方式指的是系统允许用户提交查询的方式。 查询短语v分词 对查询短语进行分词v匹配 将查询关键词与倒排文件的索引词进行匹配结果排序v按照某种评价方式,将搜索结果以某种顺序显示 出来。v评价方式 相关性 早期采用基于词汇出现频度的方法 词在不同文档中出现的频率vPageRank 在预处理阶段形成重要性指标,和查询阶段的 相关性

12、指标相结合。文档摘要v静态生成方式 预处理阶段生成,如取 网页的前512个字节, 或者取每一段的第一句 话。v动态生成方式 在查询时,根据查询关 键词的位置动态生成。搜索引擎系统的体系结构4 搜索经济的诞生-互联网的重心发展历程注意力经济(眼球经济)v提供网上图片等各种 信息v注重提供免费信箱、 聊天室等各种服务v吸引人来,注重会员 数。从眼球经济到拇指经济被动主动搜索力经济v拇指变成了十指,被动变 成了主动v搜索成了网络经济的引擎 和发动机搜索引擎的盈利模式v搜索引擎最初并没有显示出价值,只是一个免费 的附加服务。vPageRank算法的诞生,使得网络盈利成为可能v根据搜索结果显示相应的广告

13、,这是网络广告的 真正创新搜索引擎的盈利模式v竞价排名 1998年Overture推出收费竞价排名服务,谁出 的钱多,谁排前面,搜索引擎成了摇钱树。v搜索与购物网站绑定时长竞价排名v按天竞价v消除恶意点击搜索等于搜钱v2007年中国搜索引擎市场规模达29.0亿元,比上 一年增长108.3% 艾瑞咨询中国搜索引擎市场份额中美日市场规模对比重构搜索力v2003年8月,搜索引擎重新回到Yahoo首页的突 出位置。 并不完全是搜索引擎可以赚钱了 关键是它还可以整合其现有的业务资源v2004年8月,搜狐推出了搜索引擎搜狗。v2003年开始,微软重组MSN部门,并希望在下一 代操作系统中集成搜索。v亚马逊

14、推出了A9网站,专注于购物搜索搜索引擎大战v微软数次提出要收购Google. 结果被Google挖走李开复vIBM也推出了自己的搜索技术v搜索引擎和门户网站之争 养虎为患 不得不养v复杂的竞争合作关系中国搜索用户的首选中国高端搜索用户的首选“百度”视频http:/ “Google”视频http:/ 群狼共舞搜索鸟网络世界的未来统治者?v目前,Google是当之无愧的世界老大?v但是未来呢?vGoogle在中国呢?5 搜索引擎的未来发展趋势-搜索引擎自身的发展趋势v专业化 v主题化 垂直搜索引擎 v个性化 搜索工具条 桌面搜索 v智能化 v本地化 基于位置的搜索服务搜索引擎所引发的互联网变化v搜索引擎的革命引发互联网应用模式、商务模式 和业务形态的革命 搜索将成为一个网站的必备配置 搜索引擎的综合化 基于搜索引擎的信息增值业务竞争情报系 统、商务搜索、8848的购物搜索、Google信 箱搜索引擎的重要性v从内容为王到搜索为王 v从搜索服务到搜索平台 v基于搜索平台的搜索增值服务我的体会v搜索引擎中的土和洋。v搜索引擎是一个技术性很强的东西,但是又需要 很多技术之外的东西v搜索引擎是一个很容易垄断的东西,但是又很容 易打破垄断

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > 教育/培训/课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号