文档详情

《网络信息的检索》PPT课件

cn****1
实名认证
店铺
PPT
7.01MB
约120页
文档ID:591353732
《网络信息的检索》PPT课件_第1页
1/120

网络信息的检索 一、网络信息的特点•1.信息源数量庞大、增长迅速•2.信息内容丰富、多样,覆盖面广•3.传输速度快、共享程度高•4.交叉性强、分布广泛而不均匀•5.变化频繁、动态性强•6.信息使用成本低•7.信息质量良莠不齐 二、搜索引擎• 网络搜索引擎的历史最早可以追溯到 1991年,尽管搜索引擎发展时间并不长,但其观念却是深入人心的 《第 22次中国互联网发展状况统计报告》显示,在中国 2 . 5 3亿网民中,搜索引擎的使用率为 6 9.2 %,达 1 .7 5亿目前为中国第五大网络应用技术从数据中不难看出,网络搜索引擎所发挥的作用是非常大的 工作原理• 搜索引擎是互联网上的分布式搜索系统,它在传统数据库检索技术基础上,增加了自动收集和更新数据库信息的功能,并采用人工智能方法对检索结果进行区分和排序主要由信息采集器、查询表和检索接口三大模块组成 搜索引擎系统的分类1.机器人搜索引擎 由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器将用户的查询输入检索索引库,并将查询结果返回给用户。

服务方式是面向网页的全文检索服务该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选 2.目录搜索引擎 以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中信息大多面向网站,提供目录浏览服务和直接检索服务该类搜索引擎因为加入了人的智能,所以信息准确,导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时严格意义上算不上真正的搜索引擎 Dmoz: open directory project:是世界上最大也是最好的网站分类目录 主页 3.元搜索引擎 也称集成搜索引擎是对搜索引擎进行搜索的搜索引擎它可以没有自己的资源库和机器人,仅充当一个中间代理的角色,接受用户的查询请求,讲请求翻译成相应搜索引擎的查询语法在向各个搜索引擎发送查询请求并获得反馈后,进行综合相关度排序,然后把整理后的查询结果发送给用户 Dogpile共收集了26个搜索引擎,包括WEB检索、新闻组检索、FTP检索、新闻检索、股市检索、黄页检索、白页检索、地图检索、天气检索等。

http:/// 弥补了用单一搜索引擎寻找到的内容不全面的缺憾 常用搜索引擎介绍1.百度 1999年底,百度成立于美国硅谷,2000年1月创立于北京中关村,是目前全球最大的中文搜索引擎 百度的起名,来自于“众里寻她千百度”的灵感,它寄托着百度公司对自身技术的信心,象征着百度对中文信息检索技术的执著追求   百度除数据库的规模及部分特殊搜索功百度除数据库的规模及部分特殊搜索功能外,其他方面可与当前的搜索引擎业界能外,其他方面可与当前的搜索引擎业界领军人物领军人物Google相媲美,在中文搜索支持相媲美,在中文搜索支持方面有些地方甚至超过了方面有些地方甚至超过了Google,是目前,是目前国内技术水平最高的搜索引擎之一国内技术水平最高的搜索引擎之一 •成为成为“最受欢迎的中文搜索引擎最受欢迎的中文搜索引擎”和和“全全球最大的球最大的 中文搜索引擎中文搜索引擎”(百度自称),(百度自称),其数据库中存有其数据库中存有3亿页网页百度搜索引擎亿页网页百度搜索引擎具有高准确性、高查全率、更新快以及服具有高准确性、高查全率、更新快以及服务稳定的特点,能够帮助广大网民快速的务稳定的特点,能够帮助广大网民快速的在浩如烟海的互联网信息中找到自己需要在浩如烟海的互联网信息中找到自己需要的信息,因此深受网民的喜爱。

的信息,因此深受网民的喜爱 百度主页 百度国学 和端午相关的诗词 古代典籍对普洱的描述 古诗《静夜思》 2.Google 成立于1997年9月,几年间迅速发展成为目前规模最大的搜索引擎,目前Google每天处理的搜索请求已达2亿次!而且这一数字还在不断增长 •Google提供常规及高级搜索功能在高级搜索中,用户可限制某一搜索必须包含或排除特定的关键词或短语该引擎允许用户定制搜索结果页面所含信息条目数量,可从10到100条任选提供网站内部查询和横向相关查询•Google允许以多种语言进行搜索,在操作界面中提供多达30余种语言选择,包括英语、主要欧洲国家语言(含13种东欧语言)、日语、中文简繁体、朝语等同时还可以在多达40多个国别专属引擎中进行选择 Google主页 1.糖醋排骨 •Google的基本检索算符是:空格、减号和“OR”,逻辑“与”(AND)用空格代替 “糖醋排骨 做法”,注意空格的使用 空格在搜索中起到的作用是非常大的,如果想查询中国跨度最大的公路隧道中国跨度最大的公路隧道 ,可以这样搜索:“中国中国 跨度最大跨度最大 公路隧道公路隧道 ” 使用减号 -•有时你可能在查询某个题材时又不希望在这个题材中包含另一个题材,这时你就可以使用减号了。

•比如你想查询有关冯小刚的文件,但又不希望看到有关葛优的消息,用google检索你可以这样查找:冯小刚 –葛优(注意减号前有一个空格) 减号的作用在于可以使搜索结果集中反映你的需求,减号的作用在于可以使搜索结果集中反映你的需求,而你无需为大量无关的搜索结果而头疼而你无需为大量无关的搜索结果而头疼 减号前不加空格的检索结果 松茸 保鲜 检索结果 松茸 -姬松茸 保鲜 的检索结果 使用引号“”•通过添加英文双引号来搜索短语双引号中的词语在查询到的文档中将作为一个整体出现这一方法在查找名言警句或专有名词时显得格外有用 例:查一个管理学的概念:系数推导法(没有作为一个短语检索,结果难以找到有用的资料) 用一个短语检索的结果 查找雪莱的诗句“冬天已经来了,春天还会远吗”原文 地图查找:昆明市二十一中地图 提问问答:长江长度 Google的学术搜索 •Google的学术搜索专门用来搜索世界范围内的学术文献,内容从医学、物理学到经济学、计算机科学等,横跨多个学术领域以及大量书籍和整个网络中的学术性文章它可以过滤掉普通搜索结果中的大量垃圾信息,排列出文章的不同版本以及被其他文章引用的次数,还可以通过引用链接方便的找到与搜索结果相关的其他学术资料。

猪的近交系研究情况:pig inbred lines 学术高级搜索 打开其中一篇文章 学术搜索同样支持中文 3.中国搜索http:///•中国搜索联盟(慧聪搜索引擎):中国搜索联盟成立于2002年9月,由中国互联网新闻中心、慧聪国际共同发起的一个以搜索引擎应用为核心的开放型联合体,联盟号召各成员网站使用共同的搜索引擎,通过搜索引擎技术应用寻求共同有效的经营模式,整合优势资源真正实现资源共通共享,进而推动各成员的网站发展 •经过半年多的发展,中国搜索联盟已经逐步发展壮大,成员包括中国网、新华网、国际、中国日报网、中青网、中国广播网在内的国家级新闻网站,千龙网、东方网、南方网、北方网、红网、四川新闻网在内的国内顶级区域门户网站,263等商业网站以及20家慧聪资深行业网站,并与新浪网、3721和全国近200家信息港结成紧密的战略性合作关系,成为目前国内最大的“搜索引擎服务平台” 高级检索界面 4.易搜()•是雅虎公司基于全球领先的YST(Yahoo Search Technology)技术,在中国推出的搜索门户一搜具有简洁专业、海量、客观精准、国际化、稳定高速等特点,可以搜索全球50亿网页,网页搜索支持38种语言,可搜索15亿全球图片,1500万首中外文MP3,是中国最大的图片及音乐搜索引擎。

•先进的搜索分析与排序技术(而非人工干预)保证了结果的客观与精准搜索技术相关性分析是利用文本、来源、相关链接及其他特定文件的特征进行分析,以决定文件与查询的相关性YST不仅对网页内容分析,而且分析链接结构及查询意图(linkflux技术),这种新的搜索方式更加适合越来越复杂、变化多样的网络这一技术在同行业中非常独特 四、网络信息的检索•例1:软件的下载:•网上电视播放软件live的下载 随着网络带宽的提高,通过网络收看电影、电视成为可能,越来越多的网络电视软件蜂拥推出,但是这些软件都存在或是速度不够流畅,或是其它一些弊端为了能够让更多的用户看到高质量的节目,腾讯公司推出了新一代的网络直播软件:live,Qqlive与现在网络上流行的p2p方式一样,采用的是BT内核,所以在播放节目的时候,收看的用户越多,会使用其播放速度就会越快 需要在检索的网页中挑选可以得到软件的网页 可能得到软件的网页 Qqlive安装完成后,就会在桌面上添加一个图标 ,双击该图标,就可以看到Qqlive的主界面了(如图1所示)•  •软件主界面上方是菜单栏,接下来是工具栏,最常用的几个工具都在这里了,只要点击就可以方便的进行窗口大小、模式的切换。

再向下就是视频播放窗口与频道选择列表了最下面是状态栏,在这里可以实时的显示下载速度、下载百分比等数据工具栏节目列表区 例2:标准的检索•啤酒大麦的标准 检索到收录有关标准网页 检索到原文 例3:温室黄瓜的病虫害防治 例4:教学软件的检索:中学生物的教学内容:细胞分裂 下载得到的教学课件(编辑状态) 例5:人物的检索:生平 著作 例6:什么叫“水工隧洞” 例7:治疗脂肪瘤的医院 例8:查找生产香蕉粉的厂家 例9:法律法规的检索中华人民共和国道路交通安全法 例10:网上小说的阅读与下载:鹿鼎记下载输入检索词后查找可以下载的网页 通过中国小说网下载 例11:歌曲的试听或下载 例12:常用的网址不用记 欧洲专利的检索的网站查找也容易 选择第一个网页打开就是要找的数据库 图片的检索黑脉羊肚菌 ( 小尖羊肚菌、小顶羊肚菌小顶羊肚菌)利用学名检索(Morchella angusticepsMorchella angusticeps Peck) 农业病虫害的图片 第二个图片的出处 上 网做什么? 不 同的人有不 同的答案 有人看新 闻; 有人泡论坛 ; 有人玩游戏… 无论 怎样 , 只要你上 过 网, 是肯定 离不开 搜索引擎的。

但是对于许 多情况 我们常用 的百度与谷歌这两 大搜索引擎却帮不上忙 这如何是好? 要解决 问 题 , 只 用 点小花招 , 要 知道 , 搜索这玩 意, 不止有百度与谷歌… … 在国内用户首选的搜索引擎 中,百度占到了 6成 以上因此,百度 搜索引擎非常具有代表性 ,对百度进行 Google工具条的安装和使用1.进入Google主页点击Google 大全栏目 选择条条大路通google 选择 下载安装google工具栏 保持在桌面上比较方便使用 桌面上的Google工具栏安装软件 安装google工具栏 选择配置并完成安装 安装完成 Google工具栏的实用功能1. Google Search:: 在任何网页上随时使用在任何网页上随时使用 Google 的查询的查询 2. Highlight:: 用不同的颜色标释出查询字词用不同的颜色标释出查询字词 也可以在检索到的网页内容中用不同的颜色标释出查询字词也可以在检索到的网页内容中用不同的颜色标释出查询字词 3.Word Find: 在网页内寻找查询字在网页内寻找查询字词的位置词的位置•例如检索这样一个课题:甘蔗的花粉贮藏 检索策略如下: (Sugarcane OR Saccharum) and pollen and (stored OR Storage)•利用google检索时检索策略如下:•Sugarcane OR Saccharum pollen stored OR Storage 检索得到的结果 打开的网页不容易找到你要查找的内容, 分别点击分别点击 在整个检索策略中最关键的词是pollen 用鼠标点击就可以找到这个词在网页中的位置用鼠标点击就可以找到这个词在网页中的位置 印楝:不同的生态型印楝素含量 主题词主题词 印楝Azadirachta indica 印楝素含量azadirachtin content检索策略检索策略 “azadirachtin content” 印楝(Neem)属楝科,常绿乔木,广泛种植于热带、亚热带地区。

印楝由于具有极高的经济价值而倍受世界各国政府与科学家们的关注印楝被美国农业部誉为"可解决全球问题之树"联合国粮农组织、 联合国亚太地区经济和社会理事会、 国际林联等组织,推荐印楝为南亚、东南亚和非洲等干热地区优先发展的树种,并已引种栽培于50多个国家印楝全身是宝,综合利用价值很高,但在现已开发的20余种用途中,最有价值的还是作为杀虫剂 印楝是目前世界上公认的最优秀的高效无毒无公害杀虫植物科学家认为,印楝是一种较完善的植物源生物杀虫剂,它达到了作为杀虫剂所要求的全部标准:对害虫的广谱作用,对天敌的干扰少,对脊椎动物没有毒性,在环境中迅速降解,资源丰富等印楝树高10~25米,分枝早,主干短(少数种源主干较长),冠幅大,枝叶多而密集,根系发达,萌发力强印楝生长迅速,在条件适合的地方一年生幼树,树高可达6米, 2~3年开花结果,7~8年进入盛果期,每株年产鲜果30~50公斤果期100年以上印楝喜温耐旱,无霜或微霜、 年降雨350-1200毫米的地区均可种植,降雨量2400毫米的地方也生长良好对土壤要求不严格 网页的自动翻译 鼠标移动到文字上可以查看原文 。

下载提示
相似文档
正为您匹配相似的精品文档
相关文档