信息检索与利用5-6

上传人:飞*** 文档编号:54529818 上传时间:2018-09-14 格式:PPT 页数:69 大小:3.98MB
返回 下载 相关 举报
信息检索与利用5-6_第1页
第1页 / 共69页
信息检索与利用5-6_第2页
第2页 / 共69页
信息检索与利用5-6_第3页
第3页 / 共69页
信息检索与利用5-6_第4页
第4页 / 共69页
信息检索与利用5-6_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《信息检索与利用5-6》由会员分享,可在线阅读,更多相关《信息检索与利用5-6(69页珍藏版)》请在金锄头文库上搜索。

1、网络信息采集与利用,搜索引擎 ,Stand on the shoulders of giants,许多学术研究都建立在他人发现的基础上,网络信息采集与利用,学术信息 资讯信息,学术数据库 Elsevier、IEEE 馆藏资源- 科技报告 学术团队- 导师论文、相关团队 学术搜索引擎- Google Scholar 信息资源成为战略资源-竞争资源、“ 马太效应”、可持续发展能力 学术研究中的时间分配,网络信息采集与利用,学术信息 资讯信息,新闻资讯- 新闻网站 社交咨询- Twitter、Facebook 搜索引擎- Google、Baidu,搜索引擎(Search Engine),2002年,

2、华尔街一位著名的分析师指出:Internet作为一种现象,本质上可以用三个单词来表示:Search、Find、Obtain 竞价排名赢利模式(Overture、百度) Freemium商业模式 ( Wolfram Alpha ),主要内容,搜索引擎发展 搜索引擎原理 搜索引擎技术 搜索引擎分类 常用搜索引擎 搜索引擎应用,一、搜索引擎发展,搜索引擎发展,1990年以前,没有搜索引擎 现代意义上的搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie,搜索引擎发展,最早现

3、代意义上的搜索引擎出现于1994年7月。当时Carnegie Mellon University的Michael Mauldin将John Leavitt的Spider程序接入到其索引程序中,创建了大家现在熟知的Lycos 同年4月,Stanford University的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了超级目录索引Yahoo!(www.Yahoo!.com)。并成功地使搜索引擎的概念深入人心,搜索引擎发展,第一代搜索引擎,是以雅虎为代表的目录式搜索引擎 第二代搜索引擎,是以“关键词”搜索技术为代表的 综合搜索引擎增加细化分类:搜索精度=符合条

4、件的资讯总量/细化分类之数目;垂直搜索引擎 百度的创始人李彦宏认为,未来搜索引擎的发展方向是类似于“百度知道”;而GOOGLE认为,未来搜索引擎的发展方向是“人工智能”,搜索引擎发展,用于手机上的搜索引擎大体分为两类主流模式,一类是以电脑综合搜索为模式的简单移植,即把电脑综合搜索引擎几乎是原封不动的搬到手机上,另一类是以垂直搜索为模式,在对象上以面向WAP为应用为基础,称之为移动搜索引擎(又叫无线搜索引擎),即他搜索的元素基于WAP的整个应用 实时搜索、语声搜索和本地搜索 实时搜索:OneRiot、 Topsy、Scoopler和Collecta,搜索引擎发展,语音搜索: http:/ htt

5、p:/ 首批使用中文语音搜索的46款诺基亚机型包括: N73 | N75 | N76 | N77 | N78 | N79 | N80 | N81 | N82 | N85 | N86 | N91 | N93 | N93i | N95 | N96 E50 | E51 | E52 | E55 | E61| E61i | E63 | E65 | E66 | E71 | E71x | E75 | E90 5320 | 5630 | 5700 | 5730 | 6110 | 6120 | 6121 | 6124 | 6210 | 6220 | 6290 | 6650 | 6710 | 6720 | 673

6、0 | 6760 | 6790,搜索引擎发展,计算型知识引擎: Wolfram Alpha Wolfram Alpha搜索引擎将直接向用户返回从结构化数据计算而得的答案,而不是提供一系列的可能含有用户所需答案的相关网站的清单 Bing和Wolfram Alpha Google Caffeine 实时搜索:与Facebook和Twitter合作,二、搜索引擎原理,搜索引擎原理,搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库 搜索引擎只能搜到它网页索引数据库里储存的网页文字信息 搜索引擎的原理,可以看做三步:从互联网上抓取网页建立索引数据库在索引数据库中搜索排序,搜索引擎原

7、理,目前所有实用的搜索引擎技术都是以“关键字匹配”为最基础的原理的。所以搜索引擎也不能真正理解网页上的内容,它只能机械的匹配网页上的文字 谷歌搜索结果的排名是由机器学习的排名算法(Ranking Algorithm)。排名算法由 PageRank(网站信誉度)、文字匹配度、用户点击概率等数十项函数的加权综合决定。,搜索引擎技术,Page Rank 在互联网上,如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。这就是 Page Rank 的核心思想 当然 Google 的 Page Rank 算法实际上要复杂得多。比如说,对来自不同网页的链接对待不同,本身网页排名高

8、的链接更可靠,于是给这些链接予较大的权重,搜索引擎技术,Page Rank 考虑了这个因素,可是现在问题又来了,计算搜索结果的网页排名过程中需要用到网页本身的排名,这不成了先有鸡还是先有蛋的问题了吗? Google 的两个创始人拉里佩奇 (Larry Page )和谢尔盖布林 (Sergey Brin) 把这个问题变成了一个二维矩阵相乘的问题,并且用迭代的方法解决了这个问题。,搜索引擎技术,先假定所有网页的排名是相同的,并且根据这个初始值,算出各个网页的第一次迭代排名,然后再根据第一次迭代排名算出第二次的排名。他们两人从理论上证明了不论初始值如何选取,这种算法都保证了网页排名的估计值能收敛到他

9、们的真实值 值得一提的事,这种算法是完全没有任何人工干预的,搜索引擎技术,理论问题解决了,又遇到实际问题。因为互联网上网页的数量是巨大的,上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。如果我们假定有十亿个网页,那么这个矩阵 就有一百亿亿个元素。这样大的矩阵相乘,计算量是非常大的 拉里和谢尔盖两人利用稀疏矩阵计算的技巧,大大的简化了计算量,并实现了这个网页排名算法。今天 Google 的工程师把这个算法移植到并行的计算机中,进一步缩短了计算时间,使网页更新的周期比以前短了许多,三、搜索引擎技术,搜索引擎技术,现代搜索引擎技术要用到信息检索、数据库、数据挖掘、系统技术、多媒体、人工智能、计

10、算机网络、分布式处理、数字图书馆、自然语言处理等许多领域的理论和技术,成为一种综合性的技术 搜索引擎研发设计课程,搜索引擎技术, algorithms artificial intelligence compiler optimization computer architecture computer graphics data compression data mining file system design genetic algorithms information retrieval,搜索引擎技术, machine learning natural language process

11、ing operating systems profiling robotics text processing user interface design web information retrieval and more!,四、搜索引擎分类,搜索引擎分类,搜索引擎按其工作方式主要可分为三种: 全文搜索引擎(Full Text Search Engine)(Google、Fast/AllTheWeb、百度) 目录索引类搜索引擎(Search Index/Directory)(Yahoo,DMOZ,LookSmart,etc) 元搜索引擎(Meta Search Engine)(Dogpil

12、e ,Profusion),五、常用搜索引擎,常用搜索引擎,Google Yahoo! AllTheWeb Ask Jeeves Baidu 中搜(http:/ 学术搜索 特色搜索 关键词,网页搜索(Google),Google Inc. 创建于 1998 年 9 月 Google 的使命是整合全球信息,使人人皆可访问并从中受益 Google 是全球最大的搜索引擎 G 是互联网上 5 大最受欢迎的网站之一,网页搜索(Google),搜索引擎最基本的语法“与”“非”和“或”,这三种搜索语法Google分别用“ ”(空格)、“-”和“OR”表示 通配符问题 关键字的字母大小写 搜索整个短语或者句子

13、 搜索引擎忽略的字符以及强制搜索,网页搜索(Google),在某一类文件中查找信息 filetype: 对搜索的网站进行限制 site: 搜索的关键字包含在网页标题中 intitle: 搜索的关键字包含在网页内文中 intext: 搜索的关键字包含在URL链接中 inurl: 搜索的关键字包含在锚点标记中 inanchor:,网页搜索(Google),搜索和指定页面类似的网页 related: 搜索与某个URL地址存在链接的网页 link: 高级搜索,图片搜索(Google),号称“互联网上最好用的图片搜索工具” 图像搜索的工作原理:Google 分析页面上图像附近的文字、图像标题以及许多其它

14、元素来确定图像的内容。Google 还使用复杂的算法来删除重复的内容,并确保在搜索结果中首先显示质量最好的图像。,图片搜索(Google),Google图像搜索目前支持的语法包括基本的搜索语法如“ ”、“-”、“OR”、“site”和 “filetype:”。其中“filetype:”的后缀只能是几种限定的图片类似,如JPG,GIF等 搜索图片一般性结论:如果要搜索的图片是分散的,则用google图片搜索;如果要搜索的图片通常是处于某个图片集合中的,则不适合用google图片搜索,地图搜索(Google),Google 地图是Google提供的服务,为使用者提供强大、使用者友善的地图技术以及本

15、地公司资讯,包括公司位置、联络资讯以及行车路线指示 Google 地图通过很多来源收集信息,从而提供最佳的地图,视频搜索(Google),G的视频索引内容非常广泛,包含数百万个已编制索引并可观看的视频 G 的视频搜索漫游器会定期抓取中国的热门视频网站,将这些网页纳入索引并扫描其中的视频。Google 使用先进的抓取技术分析视频旁的文字、视频标题和其他数十种因素,以确定视频内容。Google 还使用复杂的算法删除重复视频,确保在搜索结果中先展示质量最高的视频,博客搜索 (Google),“博客搜索”是 Google 搜索技术针对博客内容所提供的服务 “博客搜索”的目标是收录每一个发布了站点种子(以RSS或Atom方式)的博客 “博客搜索”通过站点种子对博客内容进行收录,并及时查看是否有新的内容发布,网页搜索(Google),资讯搜索 生活搜索 图书搜索 代码搜索 学术搜索 Patent Search,特色搜索(Google),查找Flash文件 网页快照 货币转换 8人民币换成泰国的货币 计算器 sqrt(-4) 天气查询 南京 天气 金融信息 中国石化 手机号码,特色功能(Google),Gmail Google Docs Google Calendar Google Earth Google Talk Picasa YouTube,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号