《网络信息检索概论》由会员分享,可在线阅读,更多相关《网络信息检索概论(55页珍藏版)》请在金锄头文库上搜索。
1、第五章第五章 网络信息检索概论网络信息检索概论 Internet 网络信息资源网络信息资源网络搜索引擎网络搜索引擎 网络信息检索网络信息检索 第一节、第一节、InternetInternetInternetInternet的进入方的进入方式式 IPIP地址地址 n信息高速公路(一)(一)Internet的进入方式的进入方式( (二二)IP)IP地址地址识别主机的身份证,唯一性识别主机的身份证,唯一性形式:四组小于形式:四组小于256256的十进制表示。如:的十进制表示。如:210.40.0.58210.40.0.58字符型的字符型的IPIP地址,即域名(地址,即域名(DNDN),格式如:),格
2、式如: 主机名主机名 机构名机构名 网络类型网络类型 最高域名最高域名最高层域名有两种类型:最高层域名有两种类型:机构名称机构名称最高层域名为最高层域名为3 3个以上字母个以上字母。这些字母标明机构的类。这些字母标明机构的类型。型。 地理名称地理名称高层域名为高层域名为2 2个字母个字母。这两个字母的代码确定了某个。这两个字母的代码确定了某个国家或地区。国家或地区。 例如:例如:cn-cn-中国,中国, ca-ca-加拿大,加拿大,DN与与IP一般是一一对应,通过一般是一一对应,通过Internet上域名服务器可自动将上域名服务器可自动将DN转换成转换成IP。美国的顶层域按机构性质分为:此外,
3、有关组织于此外,有关组织于1997年建议增加年建议增加7个顶级域名个顶级域名,对有关域名空间作了进一步细分,以消除对有关域名空间作了进一步细分,以消除com域中域中出现的拥挤现象。所建议的顶级域名是:出现的拥挤现象。所建议的顶级域名是:info(提供信息服务的组织提供信息服务的组织),web(与与WWW特别相关的组织特别相关的组织),firm(商业公司商业公司),arts(文化和娱乐组织文化和娱乐组织),nom(个体或个人个体或个人),rec(强调消遣娱乐的组织强调消遣娱乐的组织),store(商业销售企业商业销售企业)。 第二节第二节 网络信息资源网络信息资源网络信息资源的含义网络信息资源的
4、含义网络信息资源的类型网络信息资源的类型一、网络信息资源的一、网络信息资源的含义含义二、二、网络信息资源的类型网络信息资源的类型1 1、按所采用的传输协议分、按所采用的传输协议分万维网万维网(world wide web,简称简称WWW或或Web)信息)信息资源:资源:它使用http协议,使用简单,功能强大,能方便迅速的浏览和传递分布于网络各处的文字、图象、声音和多媒体超文本信息Telnet信息资源信息资源: telnet是远程登陆协议。telnet信息资源包括硬件资源硬件资源和软件资源软件资源。许多机构都提供远程登陆的信息系统,如图书馆的公共目录系统,信息服务机构的综合信息系统等。FTP信息
5、资源信息资源:它使用ftp (file transfer protocol)协议,该协议主要用语连网计算机之间传输文件。FTP相当于在网络上两个主机之间复制文件.用户服务组信息资源用户服务组信息资源:包括新闻组,电子邮件组等。Gopher信息资源:信息资源: 2 2、按文献类型分、按文献类型分电子报纸电子报纸电子图书电子图书 电子期刊电子期刊动态信息动态信息 如政府机构发布的消息、政策法规、如政府机构发布的消息、政策法规、会议消息、论文集、研究成果、项目进展报告、会议消息、论文集、研究成果、项目进展报告、产品目录、出版目录、广告等。产品目录、出版目录、广告等。书目数据库,书目数据库,参考数据库
6、参考数据库等等等等3 3、按媒体性质分、按媒体性质分文本信息文本信息 如数据、论文、书刊、目录和数如数据、论文、书刊、目录和数据库、广告。据库、广告。图形图形 图像图像 如图表、图形、影像、影视。如图表、图形、影像、影视。声音声音 包括各种网上发表的演讲、报告及音包括各种网上发表的演讲、报告及音乐信息。乐信息。软件软件 如免费软件、赠送软件、商品软件及如免费软件、赠送软件、商品软件及软件升级版本。软件升级版本。4、按信息内容的表现形式和内容分、按信息内容的表现形式和内容分 全文型信息全文型信息:它指直接在网上发行的电子期刊,网上报纸,印刷型期刊的电子版,网络学院的各类教材,政府出版物,标准全文
7、等;事实型信息事实型信息:天气预报,节目预告,火车车次,飞机航班,城市或景点介绍,工程实况、IP地址等;数值型信息数值型信息:主要是指各种统计数据、实验数据;数据库类信息数据库类信息:如DIALOG,万方等,是传统数据库的网络化;微内容(微内容(web2.0特征)特征):如博客、播客,BBS,聊天,邮件讨论组,网络新闻组等。其它类型其它类型:投资行情和分析,图形图象,影视广告等。第三节第三节 网络搜索引擎网络搜索引擎网络搜索引擎的类型网络搜索引擎的类型检索结果的排序方法检索结果的排序方法国内外主要搜索引擎简介国内外主要搜索引擎简介搜索引擎的语法规则搜索引擎的语法规则搜索引擎的检索功能搜索引擎的
8、检索功能 搜索引擎的检索方法搜索引擎的检索方法 全文索引,全文索引,元搜索引擎元搜索引擎,目录索引,目录索引,垂直搜索引擎,垂直搜索引擎,集合式搜索引擎,集合式搜索引擎,门户搜索引擎与免费链接列表,等等。门户搜索引擎与免费链接列表,等等。仅介绍前面两种主要的搜索引擎。仅介绍前面两种主要的搜索引擎。1、独立、独立(全文全文)搜索引擎:搜索引擎:允许用户递交查询,检索出与查询相关的网页等结果允许用户递交查询,检索出与查询相关的网页等结果列表,并且排序输出。如百度,列表,并且排序输出。如百度,Google, WEB信息资源信息资源 用户系统用户系统 信息采集模块信息采集模块 信息检索模块信息检索模块
9、 索引数据库索引数据库 信息标引模块信息标引模块2、元搜索引擎、元搜索引擎二、检索结果的排序方法二、检索结果的排序方法(1 1)自然排名)自然排名)自然排名)自然排名就是按相关度排名原则,就是按相关度排名原则,就是按相关度排名原则,就是按相关度排名原则,对应的排名结果称对应的排名结果称“自然排名自然排名”。确定相关度的方法有:确定相关度的方法有:A、概率方法、概率方法:根据关键词在文中出现的频率来判定文件的相关性:根据关键词在文中出现的频率来判定文件的相关性(关键词出现次数越多,相关度就越高);(关键词出现次数越多,相关度就越高);、位置方法:、位置方法:根据关键词在文中出现的位置来判定(关键
10、词出现根据关键词在文中出现的位置来判定(关键词出现越靠前,文件的相关程度越高);越靠前,文件的相关程度越高);、网页被引用次数、网页被引用次数 google主要采取此方法,有两种计算法:一主要采取此方法,有两种计算法:一是有多少网页与该记录链接,被链接越多,赋予的分值越高是有多少网页与该记录链接,被链接越多,赋予的分值越高(即相关性越高);二是网页的访问量,网页在一段时间内被(即相关性越高);二是网页的访问量,网页在一段时间内被点击的频率越高其相关性越高。点击的频率越高其相关性越高。、被匹配提问词的数量、被匹配提问词的数量如果提问式中包含如果提问式中包含3个单词,那么全部个单词,那么全部包含包
11、含3个单词的记录要比只包含个单词的记录要比只包含2个或个或1个单词的记录分值要高。个单词的记录分值要高。、词的邻近度、词的邻近度如果两个词紧挨着出现要比分开出现的分值高。如果两个词紧挨着出现要比分开出现的分值高。(2)付费排名)付费排名近年来搜索引擎公司推出了一种近年来搜索引擎公司推出了一种“付费搜索付费搜索”业务,打破了自然排名原则,把搜索引擎检索业务,打破了自然排名原则,把搜索引擎检索结果网页(结果网页(search engine result page, SERP )排名位置拍卖给从事网络推广的广告)排名位置拍卖给从事网络推广的广告主。这些广告可以按主。这些广告可以按“每次浏览每次浏览”
12、或或“每次点每次点击击”等原则出价,出价越高则其结果在等原则出价,出价越高则其结果在SERP中的排名越高,这一原则称为中的排名越高,这一原则称为“竞价排名竞价排名”原原则,对应的排名结果叫则,对应的排名结果叫“付费排名付费排名”,三、常用中外搜索引擎简介三、常用中外搜索引擎简介常用中文独立搜索引擎常用中文独立搜索引擎(P76-)常用外文常用外文独立独立搜索引擎(搜索引擎(P79-)常用中外元搜索引擎常用中外元搜索引擎(P86-) 四、搜索引擎的语法规则(搜索引擎的语法规则(P1P1)(1)使用逻辑算符)使用逻辑算符:AND、 OR、NOT:如如“计算机营销状况,但对计算机营销状况,但对IBM的
13、情况不关心的情况不关心”,检索式为:检索式为:“计算机营销计算机营销 NOT IBM” 。(2)使用)使用“+”、“-”或或should, should not、must等:用来强调某个词汇必须等:用来强调某个词汇必须(可能可能)出现或出现或者不出现在搜索结果中,如查找者不出现在搜索结果中,如查找“联想公司的联想公司的计算机产品,但不是天琴系列计算机产品,但不是天琴系列”,检索式是检索式是:“计算机计算机 AND( +联想联想 -天琴)天琴)”四、搜索引擎的语法规则(四、搜索引擎的语法规则(P2P2)四、搜索引擎的语法规则(四、搜索引擎的语法规则(P3P3)四、搜索引擎的语法规则(四、搜索引擎
14、的语法规则(P4P4)(6)使用通配符)使用通配符“*”: 通配符可以用来指代词汇的某一部分。如com*,可以代表computer,communication,company等 五、搜索引擎的五、搜索引擎的检索检索功能功能(p1)(p1)1.1.布布尔尔逻逻辑辑检检索索 几几乎乎所所有有的的搜搜索索引引擎擎都都具具有有布布尔尔逻辑功能。逻辑功能。2.2.加权检索加权检索“”号号或或选选择择“must contain”,:表表示示某某个个关关键键词词“一定要出现一定要出现” 或或 “必须包含必须包含” 在检索结果中;在检索结果中;“”号或选择号或选择“must not contain”,“sho
15、uld not”:表表示某个关键词示某个关键词“一定不能出现一定不能出现” 或或“可能不包含可能不包含”在在检索结果中;检索结果中;不加符号或选择不加符号或选择“should contain”, “should” ,表示表示某个关键词某个关键词“可以出现可以出现” 或或“可以包含可以包含”在检索结果在检索结果中。中。 3.3.词词语语检检索索 在在一一串串词词后后加加双双引引号号(“”)或或用用连连字字符符()连接()连接,限定检索结果中的词语必须精确匹配。,限定检索结果中的词语必须精确匹配。4.4.截词检索截词检索 五、搜索引擎的检索功能(五、搜索引擎的检索功能(P2P2)六、搜索引擎的主要
16、检索方法六、搜索引擎的主要检索方法 分类检索分类检索基本检索基本检索(简单检索简单检索)高级检索高级检索地区检索地区检索1、分类检索、分类检索每一个搜索引擎都收录了大量的网址地址(中每一个搜索引擎都收录了大量的网址地址(中文搜索引擎以中文信息为主,外文搜索引擎文搜索引擎以中文信息为主,外文搜索引擎以外文信息为主),以外文信息为主),大多数搜索引擎在其首大多数搜索引擎在其首页都提供分类范畴表页都提供分类范畴表(或分类目录或分类目录),有的还分有的还分好几级类目,只需用鼠标点击选中的主题,好几级类目,只需用鼠标点击选中的主题,即可进入下一级类目,或直接显示相关的即可进入下一级类目,或直接显示相关的
17、站站点或文献名称点或文献名称。 如:分类栏目2、基本检索、基本检索(简单检索简单检索)它它是索引式搜索引擎,是索引式搜索引擎,用用户户在搜索框中输入检索词在搜索框中输入检索词,搜索引擎会返回一组指向搜索引擎会返回一组指向相关站点的超级链接。相关站点的超级链接。它它往往往往对检索提索提问式的构造式的构造要求要求较低,比低,比较直直观,检索索过程相程相对简单。检索结果检索结果65700003 3、高级检索高级检索高高级检索索:往往往往需需要要用用户按按照照搜搜索索引引擎擎检索索的的语法法规则,自自行行构构造造完完整整的的检索索式式(在在基基本本检索索界界面面),或或将将检索索词输入入到到相相应的的
18、检索索框框中中。(在在高高级检索索界界面面)。高级检索界面:高级检索界面:如如:“公公务员考考试模拟试题模拟试题” 公务员考试模拟试题公务员考试模拟试题输入检索式输入检索式输入检索词输入检索词两种输入方式的检索结果两种输入方式的检索结果110000又如:在标题中检索 “完整关键完整关键词词”104000Title:“公务员考试模拟试题公务员考试模拟试题”又如:又如:google 4、地区检索、地区检索A.通过通过“虚拟旅游者虚拟旅游者”检索信息检索信息 “虚拟旅游者”(The Virtual Tourist)是按地区访问WWW的超文本页面,不便提供文字说明,配备含链接的世界地图。通过使用鼠标点
19、击世界地图世界地图的不同部分,用户可能非常直观地进行按地区检索信息。它的URL地址为:http:/WWW 许多Gopher服务器都提供按地区检索信息的功能。可以通过URL地址的Gopher服务器按地区检索信息:C.用搜索引擎提供的地区(图)搜索检索用搜索引擎提供的地区(图)搜索检索如如google提供的提供的“地图地图”查询查询,中搜中搜的的地地图搜索图搜索等等。等等。第四节第四节 网络信息检索网络信息检索 网络信息检索概念网络信息检索概念网络信息检索工具的类网络信息检索工具的类型型网络信息检索技巧网络信息检索技巧一、网络信息检索概念一、网络信息检索概念二、网络信息检索工具的类型二、网络信息检
20、索工具的类型按不同方式可分为不同类型按不同方式可分为不同类型:1、按检索资源的类型分:、按检索资源的类型分:(1) 非非Web资源检索工具资源检索工具 即以非即以非Web资源资源(如:如:FTP,Gopher,Telnet,Usenet等等)为检索对为检索对象的检索工具,如:象的检索工具,如:Archie,Veronica,WAIS等。等。(2) Web资源检索工具资源检索工具 即以即以Web资源为主要检索资源为主要检索对象,又以对象,又以Web形式提供的检索工具形式提供的检索工具 。2、按检索时所包括的检索工具数量分、按检索时所包括的检索工具数量分 独立型(单一)搜索引擎独立型(单一)搜索引
21、擎:它拥有自己的索:它拥有自己的索引数据库,提供基于自身索引库的查询,如引数据库,提供基于自身索引库的查询,如Yahoo! 搜狐、搜狐、google等等集合型集合型搜索引擎(元搜索引擎)搜索引擎(元搜索引擎):它没有自己它没有自己的索引数据库,只提供集成的查询界面,典的索引数据库,只提供集成的查询界面,典型的有:型的有:3721、Metasearch,MetaCrawler,Bytesearch等等.3、按索引方式分、按索引方式分目录型搜索引擎目录型搜索引擎:主要采用人工或机器搜索信主要采用人工或机器搜索信息,由人工对信息进行分类加工整理,建立息,由人工对信息进行分类加工整理,建立分类导航或分
22、类编排网站目录,分类导航或分类编排网站目录,提供分类检提供分类检索的引擎索的引擎,如搜狐、,如搜狐、全文型搜索引擎全文型搜索引擎:又称索引型搜索引擎,由索:又称索引型搜索引擎,由索引软件自动搜索信息,建立网页信息索引库引软件自动搜索信息,建立网页信息索引库提供全文检索,如百度,提供全文检索,如百度,google等等三、网络搜索引擎的检索技巧三、网络搜索引擎的检索技巧1.限定在网页标题中限定在网页标题中intitle,title,或或t:把查把查询内容中特别关键的部分,用询内容中特别关键的部分,用“intitle:”领起来。领起来。例如,找林青霞的写真,可以写成:例如,找林青霞的写真,可以写成:
23、写真写真 intitle:林青霞林青霞2、限定在特定站点中、限定在特定站点中site格式是:格式是:“查询词查询词 site:站点域名站点域名”。如,查如,查“sina中旅游方面的资料中旅游方面的资料”,可以输入:,可以输入:旅游旅游 site:注意,注意,“site:”后面跟的后面跟的站点域名,不要带站点域名,不要带http:/.3、限定在、限定在url链接中链接中inurl格式格式是是“inurl:关键词关键词”或或:“url:关键词关键词”。如,找关于如,找关于“photoshop的使用技巧的使用技巧”,可以用:,可以用:photoshop inurl:jiqiao,查询串中的,查询串中
24、的“photoshop”,是可以出现在网页的任何位置,是可以出现在网页的任何位置,而而“jiqiao”则必须出现在网页则必须出现在网页url中。中。注意注意:intitle: site: inurl:和后面所跟的关键词和后面所跟的关键词(或或站点站点)不要有空格。不要有空格。4.精确匹配精确匹配双引号和书名号双引号和书名号A、双引号、双引号可以达到让搜索引擎不拆分查询词。可以达到让搜索引擎不拆分查询词。如,搜索如,搜索“贵州大学农学院贵州大学农学院”,B、书名号、书名号:一是书名号会出现在搜索结果中;一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。通常用二是被书名号扩起来的
25、内容,不会被拆分。通常用于查于查名字很通俗和常用的电影或者小说名字很通俗和常用的电影或者小说。如,查电影如,查电影手机手机,5.根据特征选择查询词根据特征选择查询词(2 2)找范文)找范文)找范文)找范文找市场调查报告范文:找市场调查报告范文:市场调查报告的特点。一是网页市场调查报告的特点。一是网页标题中通常会有标题中通常会有“xxxx调查报告调查报告”的字样;二是在正的字样;二是在正文中,通常会有几个特征词,如文中,通常会有几个特征词,如“市场市场”、“需求需求”、“消费消费”等。于是,利用等。于是,利用intitle即可以找到类似范文。即可以找到类似范文。 例:例:市场市场 消费消费 需求
26、需求 intitle:调查报告调查报告找申请书范文:找申请书范文:如入党申请书。比如入党申请书的最明如入党申请书。比如入党申请书的最明显的特征词就是显的特征词就是“我志愿加入中国共产党我志愿加入中国共产党”。 例:例:我我志愿加入中国共产党志愿加入中国共产党 title:入党申请书入党申请书找工作总结范文:找工作总结范文:工作总结,总会写的象八股文一样,工作总结,总会写的象八股文一样,“一、二、三一、二、三”,“第一,第二,第三第一,第二,第三”,“首先,首先,其次,最后其次,最后”。而且工作总结的标题中,通常会出现。而且工作总结的标题中,通常会出现“工作总结工作总结”四个字,因此,可用四个字
27、,因此,可用第一第一 第二第二 第三第三 intitle:工作总结工作总结(3)找问题的解决办法:)找问题的解决办法:猜谜语:猜谜语:有时候会遇上各种高难度的谜语,但只要这种谜语的传有时候会遇上各种高难度的谜语,但只要这种谜语的传播范围略广些,通常都可以在网上找到答案播范围略广些,通常都可以在网上找到答案,搜索时搜索时只需把谜面只需把谜面和和“谜底谜底”作为关键词搜索就可以了作为关键词搜索就可以了 例:例:眼皮上落着一只苍蝇眼皮上落着一只苍蝇 谜底谜底 解难题:解难题:如微软招聘,曾有一个著名的题目:如微软招聘,曾有一个著名的题目:“下下水道的盖子为水道的盖子为什么是圆的什么是圆的”,例:例:
28、下水道下水道 盖子盖子 圆的圆的 回答回答.也可以用搜索引擎也可以用搜索引擎找其他人五花八门的解答。如找其他人五花八门的解答。如:浏览器主页浏览器主页 被修改被修改; 冲击波病毒冲击波病毒 预防预防;消除青春痘消除青春痘;预防口腔溃疡预防口腔溃疡或者直接用:或者直接用:百度百度“知道知道”(http:/ (http:/ Answers (http:/ 小结小结1、搜索引擎的类型及特点、搜索引擎的类型及特点2、搜索引擎的语法规则、检索功能及检索、搜索引擎的语法规则、检索功能及检索方式方式3、搜索引擎的高级检索技巧、搜索引擎的高级检索技巧一些思考?如何在实践中应用这些技术?如何在实践中应用这些技术?即使用了这些技术,要么检索结果太多,要即使用了这些技术,要么检索结果太多,要么检索结果太少,有没有什么方法解决这些么检索结果太少,有没有什么方法解决这些问题?问题?什么是什么是“人肉搜索人肉搜索”,它与百度等搜索引擎,它与百度等搜索引擎搜索的区别是什么?搜索的区别是什么?