实践四典型搜索引擎训练研究报告

上传人:yuzo****123 文档编号:137190808 上传时间:2020-07-05 格式:PPT 页数:17 大小:720.50KB
返回 下载 相关 举报
实践四典型搜索引擎训练研究报告_第1页
第1页 / 共17页
实践四典型搜索引擎训练研究报告_第2页
第2页 / 共17页
实践四典型搜索引擎训练研究报告_第3页
第3页 / 共17页
实践四典型搜索引擎训练研究报告_第4页
第4页 / 共17页
实践四典型搜索引擎训练研究报告_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《实践四典型搜索引擎训练研究报告》由会员分享,可在线阅读,更多相关《实践四典型搜索引擎训练研究报告(17页珍藏版)》请在金锄头文库上搜索。

1、实践四 典型搜索引擎训练,信息工具与资源,实践内容,实践3.1:搜索引擎高阶利用(实践1学时) (1)通过上机实践掌握Google、Baidu的初高级检索功能和一些特色功能; (2)通过上机实践掌握学术搜索的途径和方法;,一知识点回顾,搜索引擎, Search Engine 是指通过网络搜索软件或网站登陆等方式,将互联网上大量网站的页面收集到本地,经过加工处理而建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息的一种工具。 由搜索模块,索引模块,检索模块和用户接口四个部分组成, 从检索系统来看它实质是对 WWW 站点资源和其它网络资源进行标引和检索的一类检索系统机制。,参见教材13

2、.2.1,一知识点回顾,参见教材13.2.1,搜索引擎的原理,可以看做三步: 从互联网上抓取网页建立索引数据库在索引数据库中搜索排序。 搜索引擎并非直接搜索互联网,也是搜索它的索引数据库。 索引数据库的更新速度直接影响搜索引擎是否可以搜索到最新的资料。,百度的高级检索,逻辑与,双引号,逻辑或,逻辑非,逻辑与:空格或+, 如“计算机 防火墙”。 逻辑或:| ,如“计算机 | 电脑” 。 逻辑非:-, 例如,要搜寻“武侠小说”,但不含“古龙”的资料,则可输入“武侠小说 - 古龙”。 百度不支持 “通配符”,要求所输入的关键词完整、准确,一字不差,才能得到最准确的资料。,Google的高级检索,逻辑

3、与,双引号,逻辑或,逻辑非,46种语言,246国家、地区,参见教材13.2.2(P280-281),Google的高级检索,逻辑与,双引号,逻辑或,逻辑非,Google支持逻辑运算:在词前加上一个减号(“-”, 英文字符),在减号之前留一空格表示排除搜索某个词语;在关键词中间留空格,Google会在关键词之间自动添加“AND”; Google 不使用“词干法”、不支持“通配符”(*) 搜索;不区分英文字母大小写,所有的字母均当做小写处理;给词语加上双引号可进行短语精确搜索。Google将连字号、斜线、句点、等号和省略号当作短语连接符。 Google允许用户直接在键盘上输入汉语拼音来检索相关事物

4、 例如:输入sichuanfengjingmingsheng,检索结果提示:您是不是要找:四川风景名胜。用户在输入拼音时,字母中间不能留有空 ,否则Google会误认为是英文。,参见教材13.2.2(P280-281),百度(baidu)高级搜索语法,专业文档搜索“filetype:”(DOC、XLS、PPT、PDF、RTF、ALL) 把搜索范围限定在网页标题中intitle 把搜索范围限定在特定站点中site 把搜索范围限定在url链接中inurl 精确匹配双引号和书名号(加上书名号的查询词,有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分) 要求搜索结果中

5、不含特定查询词减号语法,Google高级检索技术,具有特殊功能的查询字包括filetype、define、site、cache 、info 、link,inurl,allinurl,intitle,allintitle。 Filetype用于查找特定的文档, 输入格式为:“关键词 filetype:*”,*为文档类型,Google可以支持13种非HTML文件的搜索,包括PDF文档、icrosoft Office (doc, ppt, xls, rtf)、Shockwave Flash (swf)、PostScript (ps)和其它类型文档; 如输入“冒险岛filetype:swf”即搜索有关

6、冒险岛的Flash文档。 Define用于查看字词或词组的定义, 输入格式为:“define词 ”中间有一个空格,该操作符与您需要其定义的字词之间不留空格, 如“define知识经济”即获得有关知识经济定义的列表。,参见教材13.2.2(P281-282),Google高级检索技术,Site用于表示在某个特定的域或站点中进行搜索, 输入格式为:“关键词site:域或站点”, site后的冒号为英文字符,而且,冒号后不能有空格, 如输入“留学site:”表示搜索中文教育科研网站()上有关留学的的页面。 Cache在原始网页暂时不可用(比如该网页的服务器发生故障)时,用于检索该网页的cache版本

7、。 输入格式为“cache: 网页URL”,中间不能有空格,如“cache:” 显示Google主页的cache页面。,参见教材13.2.2(P281-282),Google高级检索技术,Info表示返回所有可供该特定URL使用的信息 输入格式为“info: 网页URL”,中间不能有空格, 如“info:” 将显示与Google主页相关的信息。 link表示将显示所有指向该网址的网页 格式为“link: URL地址”。 “link:”后面无空格; 如“link:”表示搜索Google中文,参见教材13.2.2(P281-282),Google高级检索技术,具有特殊功能的查询字包括filetyp

8、e、define、site、cache 、info 、link,inurl,allinurl,intitle,allintitle。 Filetype用于查找特定的文档, 输入格式为:“关键词 filetype:*”,*为文档类型,Google可以支持13种非HTML文件的搜索,包括PDF文档、icrosoft Office (doc, ppt, xls, rtf)、Shockwave Flash (swf)、PostScript (ps)和其它类型文档; 如输入“冒险岛filetype:swf”即搜索有关冒险岛的Flash文档。 Define用于查看字词或词组的定义, 输入格式为:“defi

9、ne词 ”中间有一个空格,该操作符与您需要其定义的字词之间不留空格, 如“define知识经济”即获得有关知识经济定义的列表。,Info表示返回所有可供该特定URL使用的信息 输入格式为“info: 网页URL”,中间不能有空格, 如“info:” 将显示与Google主页相关的信息。 link表示将显示所有指向该网址的网页 格式为“link: URL地址”。 “link:”后面无空格; 如“link:”表示搜索Google中文,inurl表示搜索结果将被限定于那些在URL中包含该字的文件 格式为“inurl:关键词”,“inurl:”后面不能有空格。 如“inurl: 发现号”表示返回的网页

10、链接中包含发现号的资料; 如“inurl: photo Shuttle Discoverysite: ntrs.nasa.gov”表示在美国航空航天宇航局网站上搜索有关发现号航天飞机的照片; “inurl: photo发现号”表示在网页上搜索有关发现号的照片;第一个关键词多采用资源名称如mp3、gallary、album、news、photo、image等,用第二个关键词确定具体专题。 allinurl: 表示搜索结果将被限定于那些在URL中包含所有查询字的文件。 如, “allinurl: 布达拉宫 西藏”表示搜索结果为在URL中同时具有“布达拉宫”和“西藏”的文件。 在您的查询中的每个字之

11、前放置“inurl:” 等同于在您所有查询字之前加 “allinurl:”。,参见教材13.2.2(P281-282),Google高级检索技术,intitle将搜索结果限定于那些在HTML标题中包含该字的文件。 输入格式为:“intitle: 关键字关键字”,第二个词也可不输入,“intitle:”和字之间不能有空格。 如“intitle:布达拉宫 西藏” 表示搜索结果为在HTML标题中提及布达拉宫,而在文件中的任何地方(既可以是标题也可以是文件的任何其他位置)提及西藏的文件。 allintitle 表示搜索结果限定在那些其HTML标题中包含所有查询字的文件中, 如“ allintitle:

12、布达拉宫 西藏”表示搜索结果为在HTML标题中同时包含“布达拉宫”和“西藏”的文件。 在您的查询中的每个字之前放置 “intitle:” 等同于在您所有查询字之前加 “allintitle:”。,参见教材13.2.2(P281-282),雅虎(yahoo)的搜索技巧,如何使搜索结果中的查询词不被拆开? 在查询词前后加上双引号(中文双引号、英文双引号都可以) 如何查找更精确的搜索结果? 使用多个查询词搜索、使用减号、使用双引号: 如何限定搜索结果的语言? 雅虎搜索支持多达38种世界各地的语言 英语不好也可以轻松浏览英文网页么? 当搜索结果的标题右侧出现“英译汉”链接时,点击便可查看翻译成中文的网页。,雅虎(yahoo)的搜索技巧,搜狗(sogou)的搜索技巧,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号