网络检索工具

上传人:第** 文档编号:54669986 上传时间:2018-09-17 格式:PPT 页数:111 大小:4.75MB
返回 下载 相关 举报
网络检索工具_第1页
第1页 / 共111页
网络检索工具_第2页
第2页 / 共111页
网络检索工具_第3页
第3页 / 共111页
网络检索工具_第4页
第4页 / 共111页
网络检索工具_第5页
第5页 / 共111页
点击查看更多>>
资源描述

《网络检索工具》由会员分享,可在线阅读,更多相关《网络检索工具(111页珍藏版)》请在金锄头文库上搜索。

1、网络检索工具,因特网基础知识 网络检索工具基础 搜索引擎实例 网络免费学术或专业信息资源,1. 因特网基础知识,CNNIC最新统计:截至2008年底,我国互联网普及率以22.6%的比例首次超过21.9%的全球平均水平。同时,我国网民数达到2.98亿,宽带网民数达到2.7亿,国家CN域名数达1357.2万,三项指标继续稳居世界排名第一。,1.1 我国因特网的发展,CNNIC历次调查我国网民总数,2000-2008年中国网民规模与增长率,TCP/IP协议通信的保证机制 IP地址地址的标识技术 客户机/服务器系统运作的基本模式,1.2 因特网的互联原理,地址的标识技术IP地址,识别主机的身份证,唯一

2、性 形式:四组小于256的十进制表示。 如:202.38.185.67 北京邮电大学图书馆技术部一台主机。 字符型的IP地址,即域名(DN)域名的地址格式为: lib. jiangnan. edu. cn 主机名 机构名 网络类型 最高域名,常用网络类型代码,com 商业机构 org 非营利组织 edu 教育机构 gov 政府部门 net 网管组织 int 国际组织 mil 军事部门 info 信息机构,1.3 因特网提供的主要服务,环球网(WWW/Web) 电子邮件(E-Mail) 远程登录(Telnet) 文件传输(FTP)等,1990年诞生于瑞士全欧原子物理研究室。 是通过超文本(Hyp

3、ertext)方式来进行互联网上信息查询的网络工具。 超级链接:通过网页上的关键字、图片等元素在网页、多媒体信息间建立起网状链接 超文本:一种文件格式,将分散于各机器上的文本、图像、声音等文件通过超级链接链接起来。 基于超文本传输协议:http(Hypertext Transfer Protocol),环球网(World Wide Web),统一资源定位器(URL,网址) 是信息在网上的地址,用来定位和检索WWW上的文档。 由三部分组成 web服务器域名、文件路径、文件名 例如:http:/ content.htm,环球网(World Wide Web),博客你的网络日记,Blog与BBS的区

4、别 Blog集原创文章、评价、链接、网友跟进于一体 BBS没有上下文概念,反复围绕一个问题,但人们经常忘了以前说过什么。,RSS聚合 是在线集成、共享互联网内容,随时获取网页更新信息的一种简易方式(真正简易聚合,Really Simple Syndication)。 网站提供RSS输出,有利于让用户获取网站内容的最新更新。 用户通常在时效性比较强的内容上使用RSS订阅能更快速获取信息。 网络用户可以在客户端借助于支持RSS的聚合工具软件,在不打开网站内容页面的情况下阅读支持RSS输出的网站更新内容。例:SharpReader 、看天下、 FeedDemon、 NewzCrawler。流行的在线

5、聚合器: Bloglines ;My Yahoo!,2. 网络检索工具基础,且慢,让我先Google一下,我们若能更妥善地搜寻资料,实在已经改变世界,2.1 网络检索工具的原理,网络检索工具泛指因特网上提供网页信息资源检索和网站导航服务的站点,主要面向互联网信息检索,并通过Internet来提供服务,通常又称搜索引擎。,网络检索工具的原理,主要由五部分构成: 数据采集(robot/spider):负责按照一定的方式和要求对网络资源进行搜集,并将搜集到的网页信息经网络传输,存储到搜索引擎的临时数据库中 数据分析与标引(indexer):负责对收集到的网页信息进行分析,从中提取有检索或查询价值的内

6、容网页关键词、网页的分类类别等,并对关键词进行权值计算;,网络检索工具的原理,数据组织:负责形成规范的索引数据库或便于浏览的层次型分类目录结构 数据检索:负责帮助用户用一定的方式检索索引数据库,获取符合用户需要WWW信息 信息挖掘:负责提取用户相关信息,利用这些信息来提高检索服务的质量。根据用户以前检索行为的学习统计及其登记的信息,信息挖掘模块在个性化服务中起到关键作用,2.2 搜索引擎类型,按工作原理划分 按检索内容划分,按工作原理划分,独立检索工具 主题指南/目录/网站查询(Directory) 由人工采集网站并进行分类,建成树状等级目录.保证了查准率,但查全率降低。 如:ODP(Open

7、 Directory Project) 、 Yahoo! 搜索引擎/网页搜索 通过Robot自动跟踪标引软件搜寻网页,自动进行关键词标引,它不需要人工干涉,查全率较高。 如:Google,All the Web,按工作原理划分,元搜索引擎(集成搜索引擎) 自身不采集信息,没有信息库,同时检索多个独立搜索引擎,以统一格式输出结果。信息量大,用时短。Vivisimo、Ixquick、Mama、搜星、万纬搜索等。,按检索内容划分,通用检索工具 是综合性的信息检索系统,它往往基于检索词去匹配相关的内容。时常也会因检出内容太泛而无法一一过目。 如:Google、百度、 Altavista、ODP、Yah

8、oo! 学术或专业检索工具 是学术或专业信息机构,根据需求,将Internet上资源进行筛选整理、重新组织而形成学术或专业信息检索系统,针对性较强。 如:Scirus、HealthWeb、BIOMED,I. 单词检索 II. “词组/短语检索” (“精确检索”) 检索结果必须含有与提问式完全一样 ( 包括次序 ) 的字串。在搜索比较专指的文献时,就要使用双引号(“”)进行词组检索。如:防震建筑材料和 “防震建筑材料 ” 有一些专用语尽管没有加引号,仍可作为专用语处理。例如:mother-in-law,2.3 搜索引擎的检索特性,III. 布尔逻辑检索,逻辑”与”: 关键词A AND(或空格)关

9、键词B 例:查找胰岛素治疗糖尿病 胰岛素 AND(空格) 糖尿病 逻辑”或”:关键词A OR(|)关键词B(|前面必须有空格) 例:查找电脑 电脑 OR(|)计算机 逻辑”非”:关键词A NOT(-)关键词B(减号前面必须有空格) 例:查找佳能的产品(相机除外) 佳能 NOT(-)相机,III. 布尔逻辑检索,注意: 中文搜索引擎查询时一般不需要使用“AND”,因为搜索引擎会在关键词之间的空格处自动添加“AND”;有的中文搜索引擎不支持“OR”的搜索,无法接受“或者包含词语A,或者包含词语B”的网页 大多数搜索引擎都可用“+”表示必须包括某词,“-”表示必须排除某词。,例:分别输入 “防震建筑

10、材料” +保温;“防震建筑材料“ -保温的结果,IV. 限定搜索,Intitle(在GOOGLE中是allintitle) intitle的意思是所有搜索结果的网页的标题中都要包含“关键词A”。 格式:关键词B intitle:关键词A(多个个关键词中最重要的词放此)只适用在百度中 allintitle:关键词A用于GOOGLE中 例:查找有关温总理访日融冰之旅方面的信息 温家宝 融冰之旅 与intitle:温家宝融冰之旅,又例:查找圆明园的历史 由于“圆明园”这个词非常关键,如果选择”圆明园 历史“这个搜索式不如选”历史 intitle:圆明园“(结果是:在所有标题中包含”圆明园“这个词的网

11、页中寻找出现”历史“这个关键词的结果),Inurl(在GOOGLE中是allinurl) url是Uniform Resource Locator(统一资源定位符)的缩写,简单地说,就是地址栏里的东西。意思是在url中含有关键词B的网页中,寻找关于关键词A的信息。 格式:关键词A inurl:关键词B(关键词A与inurl之间要用空格隔开) 例:图书馆 inurl:lib,SITE site是限定在某个网站内搜索关键词A 格式:关键词A site:(即某个域名/网站) 例:在新浪网中查找有关融冰之旅的信息 融冰之旅 site:,FILETYPE filetype 是限定搜索结果的文件类型。互联

12、网上,存在大量非网页格式的资料,如word文件、pdf文件等。格式:关键词A filetype:文件格式后缀名 例:入党申请书 filetype:doc,搜索结果全都是word文件。,V 词间位置限定检索 搜索引擎中较少使用, 仅AltaVista, MSN Search等少数搜索引擎可用NEAR进行位置限定 VII 二次检索 多数搜索引擎都有“缩小搜索”或“在结果中搜索”功能,在已获得的检索结果中进行“二次检索” VIII截词检索 多用于国外搜索引擎。一般用词干法或前方一致。有的中文搜索引擎不使用“词干法”,也不支持“截词符”(*)搜索,2.4 搜索引擎的检索策略,分析检索的主题 选择合适的

13、搜索引擎 抽取适当的关键词 正确构造检索式 及时调整检索策略,分析检索的主题,了解查询目的和要求,确定需要的 信息类型(全文、文本、图像、声音等) 查询方式(浏览、分类检索、关键词检索等) 查询范围(全文、网页、标题、FTP、软件、外文等) 查询时间,选择合适的搜索引擎,要选择合适的检索工具时,就要先了解所要使用的搜索引擎 GOOGLE 特点:有庞大的数据库,提供全面的结果信息,例如,文章的日期,大小等等。可搜索所有网站,快速有效的搜索到自己所需内容,是一个快速、强大的搜索引擎,它具有足够的响应能力来处理任何极度复杂的搜索,用户界面相当好。并且具有一定的大写、名词识别能力的快速搜索引擎,它的

14、数据库是最大的,能找到别的搜索引擎所不能找到的东西。,选择合适的搜索引擎,雅虎 Yahoo! 是一个涵盖全球120多亿网页(其中雅虎中国为12亿)的强大数据库,拥有数十项技术专利、精准运算能力,支持38种语言,近10,000台服务器,服务全球50%以上互联网用户的搜索需求。,选择合适的搜索引擎,百度 百度搜索引擎拥有目前世界上最大的中文搜索引擎,总量超过3亿页以上,并且还在保持快速的增长。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点,在中文搜索方面,百度甚至比GOOGLE更胜一筹。,选择合适的搜索引擎,搜狐分类目录 http:/ 50,000主题分类,500,000优选网站

15、,人工精选分类 Google 网页目录 http:/ Google 的网路目录内容是依据Open Directory,经由全球各地的义务编辑人员精心挑选,再由 Google 著名的网页级别技术(专利申请中)分析,让网页依照其重要性先后排列出,并透过网页介绍里的横线长度,来标明此网页的重要程度。 网易搜索分类目录 http:/ 一个由网上的志愿人员编辑的分类网站目录。 新浪搜索分类目录 http:/ 由新浪搜索专业编辑挑选和分类的网站结果。,抽取适当的关键词,如何抽取关键词: 使用名词或物体做关键词 检索式中使用2-3个关键词 要注意同义词、近义词、相关词或同一术语的不同表达方式。如,inter

16、net、 web 、www 、the net 对固定短语,用“”括起来进行检索,以提高检索的精确度。如,“worle wide web”,及时调整检索策略,扩大检索范围:检索结果为0或太少时,就需要扩大检索范围 使用同义词、近义词或相关词 减少最不重要的概念词,或使用较普遍的词,或改用上位词。 利用某些搜索引擎的自动扩检功能进行相关检索。 使用多个搜索引擎。,及时调整检索策略,缩小检索范围:如果得到的检索结果太多,或检索结果不相关,则需要缩小检索范围。 使用布尔逻辑 使用词组检索 使用高级检索语法,3. 搜索引擎实例,3. 通用搜索引擎实例:Google,3.1 Google的概况 3.2 Google的特色 3.3 Google的搜索模块 3.4 Google的关键词检索规则 3.5 Google的网页目录查询 3.6 Google学者Scholar 3.7 Google使用偏好设置 3.8 其他检索引擎,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 企业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号