第二章引擎与软件09

上传人:206****923 文档编号:88898530 上传时间:2019-05-12 格式:PPT 页数:46 大小:1.62MB
返回 下载 相关 举报
第二章引擎与软件09_第1页
第1页 / 共46页
第二章引擎与软件09_第2页
第2页 / 共46页
第二章引擎与软件09_第3页
第3页 / 共46页
第二章引擎与软件09_第4页
第4页 / 共46页
第二章引擎与软件09_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《第二章引擎与软件09》由会员分享,可在线阅读,更多相关《第二章引擎与软件09(46页珍藏版)》请在金锄头文库上搜索。

1、第二章 搜索引擎与软件资源,第一节 搜索引擎 第二节 软件资源 第三节 翻译站点 第四节 工具书网站,第一节 搜索引擎,一、搜索引擎知识 二、搜索引擎介绍,一、搜索引擎知识,1、搜索引擎含义 2、搜索引擎的组成与工作原理 3、搜索引擎的种类 4、著名搜索引擎简介,1、搜索引擎含义,搜索引擎(Search engine)是指通过网络搜索软件或网站登录等方式,对互联网上各种资源进行标引,并为检索者提供检索的工具 搜索引擎是采用信息自动跟踪标引等技术、建立在因特网上专门提供网络信息资源导航服务检索工具。,2、搜索引擎的组成与工作原理,组成: 1、搜索器 2、分析器 3、索引器 4、检索器 5、用户接

2、口 搜索引擎的工作原理 搜索引擎通过搜索器(网络机器人(Network Robot))搜索软件,在因特网上自动跟踪和发掘各种网页信息后,再利用分析器分析标引为扫描到的每一个网页建立顺排文档,索引软件建立倒排文档,从而构造出一个巨大的网络信息库;用户在搜索引擎服务器的WWW站点或网页上的用户接口进行关键词检索或分类浏览得到检索器的搜索结果.,可概括为以下几个过程 (1)信息的采集和存储。全文搜索引擎一般运用“网络机器人”,定期对一定IP地址范围内的互联网站进行搜索,自动收集网页信息并存入数据库。而目录搜索引擎是通过编辑人员对提交的网站进行浏览评判,把被接纳的网站分门别类地存放在相应的目录中。 (

3、2)索引系统的建立。信息采集和存储后,要建立索引查询系统。要对采集到的网页信息进行信息语词切分、语词词法分析、词性标注及相关的自然语言处理,建立检索项索引。,3)检索界面的建立。通过人机交互的理论和方法,搜索引擎检索界面接受检索者提交的查询请求(可对查询内容、逻辑运算、相近关系及出现位置等进行限制),并根据检索者所输入的关键词在其索引数据库中进行检索,显示相应的检索结果,提供用户相关性反馈机制。 (4)检索结果的处理。搜索引擎对检索结果按相关程度进行排列,把最相关的结果排在最前面。每个搜索引擎评判结果相关性的方法均不同,搜索引擎确定相关性的方法有概率方法、位置方法、摘要方法和分类方法。,3、搜

4、索引擎的种类,全文搜索引擎(亦称机器搜索引擎)。使用自动索引软件来发现、收集并标引网页,建立数据库,并以Web形式让用户找到所需信息资源。比较著名的有:AltaVista、Google、天网、百度、悠游等。 目录搜索引擎(亦称分类搜索引擎) 。 这类引擎将信息系统地分门归类,经过人工整理后形成庞大而有序的分类目录体系,用户可以在目录体系的导引下通过逐级浏览,发现、检索到有关的信息。 Yahoo(雅虎)就是以卓越的分类目录型导航服务而称誉全球、搜狐分类目录 混合搜索引擎。 它兼有全文型和目录型两种方式。如:新浪、搜狐、网易、中华 Vivisimo 、 Infospace等门户网站。 多元搜索引擎

5、 :也称为集合型搜索引擎。它是将多个搜索引擎集成在一起,通过统一的检索界面进行网络信息多元搜索的检索工具。这类搜索引擎的代表是WebCrawler http:/ 2、谷歌(http:/) 3、Scirus (http:/),1、百度(http:/),百度 国内唯一商业化的全文搜索引擎,提供搜狐、新浪、263、Tom等站点的网页搜索服务。百度搜索引擎是目前最有影响的中文网络信息检索系统。它的检索词可以是中文、英文、数字,或中英文数字的混合体。百度提供逻辑与、或、非检索,多个关键词之间必须留一个空格,系统默认为逻辑“与”检索,其他同Google的检索方法。 百度的字段限定检索同Google 基本相

6、同之.,2、谷歌(http:/),Googel使用方法,1、 运算符使用 2、搜索引擎忽略的字符以及强制检索 3、site网站检索 4、搜索的关键字包含在URL链接中 5、filetype 6、博客搜索 7、图片 8、其他,1、运算符使用,1)逻辑与 AND 空格 加号+ 2) 逻辑或 OR 树杠 | 注意AND、OR必须大写,否则会被认为是普通的单词,而不是搜索指令。 OR优先于AND 3)逻辑非: 4)完整匹配:“” 例:“world war I“ 表示搜索一次世界大战。 5) 通配符:* ? 提示:不要指望Google通过progr?m搜索到program,因为progr和m分别被当作一

7、个独立的单词,并且这两个单词之间允许出现一个字符,如此而已。,2、搜索引擎忽略的字符以及强制检索 (1) 加号 + Google对一些网路上出现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理。 示例:搜索关于www起源的一些历史资料。 搜索:“www的历史 internet” 结果:字词www、的,因为使用过于频繁,没有被列入搜索范围,只搜索有关历史 Internet的中文(简体)网页。,如果要对忽略的关键字进行强制检索,则需要在该关键字前加上 “+”号。 搜索:+www+的历史internet 结果:搜索出含有有关www的历史 intern

8、et的中文(简体)网页。,(2) 双引号 ” 一是把关键字分别用双引号引起来。 搜索:“www” “的”历史 internet 结果:搜索有关 www的历史 internet的中文(简体)网页。 我们看到,这一检索事实上则与在该关键字前加上 “+”号的作用基本相同。 注意:大部分常用英文符号(如问号,句号,逗号等)无法成为检索关键字,加强制也不行。,另一个方法是把关键词或短语用英文双引号一起引起来。如”world war I” ,“I”其实也是忽略词,但因为被英文双引号引起来,搜索引擎就强制检索这一特定短语。 搜索:”www的历史” internet 结果:检索有关 www的历史 intern

9、et的中文(简体)网页。 我们看到,这一检索事实上把“www的历史”作为完整的一个关键字。显然,包含这样一个特定短语的网页并不是很多,不过,每一项都很符合要求。,3、site网站检索,高级搜索Site 表示检索结果局限于某个具体网站或网站频道,如“” , “”, 或者是某个域名,如“”, “com” 等。 简单搜索site后的冒号和点必须是半角,而且,冒号后不能有空格 Site: ,关键词与site之间要有空格。此外,网站域名不能有“http”以及“www”前缀。,例:在山东理工大学网站上查找“齐文化” 齐文化 site: 例:检索中文教育科研网站()上的所有包含“三个代表”的页面 三个代表

10、site:,4、搜索的关键字包含在URL链接中,allinurl 语法(网页内的网址)返回的网页的网址中直接包含所有查询关键字。查询对象集中于网页内内容的网址字符串中。 allinanchor语法(在网页的链接内)返回的网页链接内包含所有查询关键字。查询的对象集中于网页的链接内。 inurl 区别于inancho r :inurl是网页本身的url地址,而inanchor是在外部用于指向该url地址的文本(之间文本)中找。 link: 含有某个链接的网页 link:,allinurl链接(网页内的网址),allinanchor链接(在网页的链接内),Link 与site区别,5、filetyp

11、e,“filetype:”是Google开发的非常强大实用的一个搜索语法。也就是说,Google不仅能检索一般的文字页面,还能对某些二进制文档进行检索。 目前,Google已经能检索微软的Office文档如.xls、.ppt、.doc,.rtf,WordPerfect文档,Lotus1-2-3文档,Adobe的.pdf文档,ShockWave的.swf文档(Flash动画)等。 其中最实用的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的数字化出版标准。,6、博客搜索,博客搜索 的结果将来自Google 自家提供的博客服务“Blogger”的内容和其他各种博

12、客发布平台上的博客内容。 博客搜索的索引是即时连续更新的,得到最精确,最及时的搜索结果。能搜索英语,法语,意大利语,德语,西班牙语,中文,韩文,巴西葡萄牙语及其他各种语言的博客内容。 博客搜索的地址: http:/ (Google 风格的界面) http:/ (Blogger风格的界面),7、图片,8、其他检索,天气 图书 视频 邮政编码 http:/,3、Scirus,资源介绍:由Elsevier公司于2001年4月开发,Scirus是目前互联网上最全面、综合性最强的科技文献门户网站之一,Scirus引擎的信息源主要是两部分:网页和期刊。这种搜索引擎网站的出现为科学家们在网络上和专有数据库中

13、快速查找所需的信息打开了一道便捷之门,此外,还可以对网络中所搜索到的结果进行过滤,然后只列出包含有科学信息的成分。,http:/,Scirus主页,下载 | 提交网站 | Scirus通讯 | 帮助 | 图书馆合作伙伴 | 联系我们 关于我们 | 咨询委员会 | 隐私政策 | 条款及条件 | 新闻中心,Scirus学科范围,Scirus覆盖的学科范围包括:农业与生物学,天文学,生物科学,化学与化工,计算机科学,地球与行星科学,经济、金融与管理科学,工程、能源与技术,环境科学,语言学,法学,生命科学,材料科学,数学,医学,神经系统科学,药理学,物理学,心理学,社会与行为科学,社会学等。,Scir

14、us特点,过滤非科学方面的信息; 收录同行评论的文章; 提供基本检索和高级检索两种检索方式; 可以搜索特定的作者、期刊、出版年等,缩小查询范围; 可同时查询与学科相关的会议、摘要及专利资料; 有不少免费的全文信息,并可直接链接Elsevier 数据库的全文。,Scirus检索技巧,支持布尔逻辑算符 AND 或 空格 OR ANDNOT 或 截词符 ? * 词组精确检索 “ ” 字段限定检索 au: ti: jo: ke: url: issn:,第四节 参考工具信息资源,一、参考工具概述 二、网上参考工具信息资源,一、参考工具概述,参考工具类型 1、辞典 2、百科全书 3、年鉴 4、手册 5、名

15、录,1、辞典,概念 : 字典 : 是汇集单字,主要解释字的形、音、义及其用法,有词是进一步让使用者了解字的用法而设的。 词典:汇集词语,是以收集解释语言的词语为对象,包括词组、惯用语、成语、专有名词,主要解释词语的形、音、 义或它所要表达的概念。 字典重在解字,词典重在释词。 类型: 语文词(辞)典 综合性词(辞)典 专科性词(辞)典,2、百科全书,百科全书:百科全书是知识的总汇,是一切知识门类或一个学科及多个相关学科的广泛的概述性参考工具。 有“工具书之王”、“没有围墙的大学”、“袖珍图书馆”之称。 百科全书根据其收录的内容范围,可分为综合性百科全书(如中国大百科全书)和专科性百科全书(如中国企业百科全书) 。 外文综合性百科全书比较著名的是被西方人称为“A、B、C三大英语百科全书”的新不列颠百科全书、 美国百科全书和科利尔百科全书,3、 年 鉴 年鉴是系统汇集一年内重要时事文献、学科进展及各项统计资料,以供人们查阅的工具书。 年鉴的资料多取材

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 其它中学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号