《因特网上的信息检索复习课程》由会员分享,可在线阅读,更多相关《因特网上的信息检索复习课程(34页珍藏版)》请在金锄头文库上搜索。
1、使用不同的搜索引擎在网上获取信息资源,改变关键词 尽量少用通配符与含糊的词 使用逻辑控制符AND,利用多个条件同时满足要求进行限制 使用双引号“”(英文状态下)将连在一起的词变成短语来搜索 用近义词代替关键词 使用逻辑控制符OR 使用其他的搜索网站,讨论交流:哪些搜索技巧可以缩小搜索范围?,3.2.1因特网信息检索方法,因特网是全球性的分布式系统,信息组织处于一个无序的状态。 基于超文本/超媒体的信息浏览 基于目录服务的信息查询 基于搜索引擎的信息检索,1、基于超文本/超媒体的信息浏览,能够灵活、方便地查找信息,但信息检索很大程度上取决于所提供的链接,搜索结果带有偶然性和片面性。,2、基于目录
2、服务的信息查询,人们根据信息的主题将网络上的资源进行分类,并以目录的形式组织和表现。,3、基于搜索引擎的信息检索,查询请求,搜索引擎:信息检索工具,查询结果: 非资源本身 资源的链接,3.2.2 搜索引擎的发展与分类,1994年4月斯坦福大学两名博士生 美籍华人杨致远和美国人David Filo,超级目录索引雅虎,最早的搜索引擎?,1、搜索引擎的产生,成功地使搜索引擎的概念深入人心 从此搜索引擎进入了高速发展时期,1990年起搜索引擎发展举例,2 搜索引擎的分类,目录式搜索引擎 全文搜索引擎 元搜索引擎 垂直搜索引擎 集合式搜索引擎 门户搜索引擎 免费链接列表,搜索引擎的分类,优点:,实实在在
3、找到用户所关心内容分类,网站导航质量高,缺点:,分类不够细,需要人工介入,目录的维护量大, 更新可 能不够及时.,搜索引擎的分类,优点:,信息量大、更新较及时、不需人工干预。,缺点:,返回信息过多,有很多无关信息。,搜索引擎的分类,优点:,结果精确、全面,汇聚各大搜索引擎的结果。,缺点:,检索速度较慢、牺牲个别搜索引擎性能,并非1+1=2,如果你是搜索引擎公司的老总, 谈谈什么是好的搜索引擎?,搜索结果准确,搜索精度高 响应速度快 及时更新检索数据库,剔除“死链”,思考,搜索引擎技术的发展,1、提高对用户检索提问的理解 2、对检索结果进行进一步的处理 3、确定搜索引擎信息搜索范围,提高搜索引擎
4、的针对性,搜索引擎技术的发展,1、提高对用户检索提问的理解 自然语言的使用使网络交流更加人性化,让查询变得更加方便、直接、有效。 案例:了解关于杀计算机病毒的方法。 关键词1:计算机病毒 关键词2:如何清除计算机病毒,搜索引擎技术的发展,2、对检索结果进行进一步的处理 基于链接评价的搜索引擎 Google设计者认为:一个网页的重要性取决于他被其他网页链接的数量 基于访问大众性的搜索引擎 这类搜索引擎的设计者认为大多数人选择访问的网站就是最重要的网站。 去掉检索结果中附加的多余信息,搜索引擎技术的发展,3、确定搜索引擎信息搜索范围,提高搜索引擎的针对性 1、垂直主题搜索引擎:高度的目标化和专业化
5、,搜索引擎技术的发展,3、确定搜索引擎信息搜索范围,提高搜索引擎的针对性 1、垂直主题搜索引擎:高度的目标化和专业化 2、非WWW信息搜索:提供FTP类信息的检索,搜索引擎技术的发展,3、确定搜索引擎信息搜索范围,提高搜索引擎的针对性 1、垂直主题搜索引擎:高度的目标化和专业化 2、非WWW信息搜索:提供FTP类信息的检索 3、多媒体搜索引擎:实现多媒体检索,搜索引擎技术的发展,1、提高对用户检索提问的理解 2、对检索结果进行进一步的处理 3、确定搜索引擎信息搜索范围,提高搜索引擎的针对性,3.2.3 搜索引擎的工作过程,信息检索 人工智能 计算机网络 分布式处理 数据库 数据挖掘 数字图书馆
6、 自然语言处理 ,搜索引擎是一个交叉的研究领域,极具综合性和挑战性。,目录式搜索引擎的工作过程,以人工方式或半自动方式搜集信息,由编辑员查看信息后,人工形成信息摘要,并将信息置于事先确定的分类框架中。,用户通过浏览分类目录来查看自己所需要的信息,再链接到信息资源所在的位置。,全文搜索引擎的工作过程,搜索器,互联网,初识数据,索引器,检索器,索引数据库,接口界面,IE浏览器,用户,搜索输出,查询信息,系统定期搜索网络,提取并组织、排序,关键字对比、提取,Spider系统程序:像蜘蛛一样在网络间爬来爬去,追踪互联网,捕获网址。,用户接口,课堂小结,一、信息检索的方法 基于超文本/超媒体的信息浏览
7、基于目录服务的信息查询 基于搜索引擎的信息检索 二、主要二类搜索引擎 1、目录式搜索引擎 2、全文搜索引擎,一、选择题,1. 以下选项中,不属于因特网中信息检索的主要方法是( ) A基于超文本/超媒体的信息浏览 B基于搜索引擎的信息检索 C基于“我的电脑”文件搜索 D基于目录服务的信息查询 答案:C 2(多选题)以下选项中,属于网络主要搜索引擎的分类是( ) A全文搜索 B目录搜索 C专业搜索 D元搜索 答案:AB,一、选择题,3我们通过网页中的链接去访问另外一个信息资源的信息检索方法是( )。 A基于超文本/超媒体的信息浏览 B基于目录服务的信息查询 C基于搜索引擎的信息检索 D特种搜索引擎
8、 答案:A 4使用全文搜索引擎,搜索的结果是( )。 A我们所要找的全部信息 B互联网上客观存在的网页数据 C搜索引擎数据库中的数据 D以上都不是 答案:C,一、选择题,5全文搜索引擎一般采用什么原理来采集信息( )。 A人工方式 B“蜘蛛”程序 C关键字检索 D检索工具 答案:B 6如果要搜索桂林旅游景点,则应该在搜索框输入什么关键字才能高效地找到有用信息( )。 A桂林or旅游景点 B桂林or旅游or景点 C桂林or旅游and景点 D桂林and旅游and景点 答案:D,二、判断题,7由于因特网是全球性的分布式系统,数以百万计的信息提供都难以按照一定的约定来提供信息,因此,整个因特网的信息组
9、织处于一个无序状态。( ) 答案:对 8搜索引擎是因特网上信息检索的软件系统,最早的搜索引擎出现于1994年4月,是由斯坦福大学的两名博士(其中包含美籍华人杨致远)创办的雅虎。( ) 答案:对 9目录式搜索引擎是以人工方式收集信息,由编辑人员查看信息后并将信息分类置于事先确定的相应目录中。( ) 答案:对,二、判断题,10目录式搜索引擎是通过计算机进行分类和整理,不需要人工干预。( ) 答案:错 分类不够细,需要人工介入,目录的维护量大, 更新可能不够及时. 11全文搜索引擎的优点是信息量大、更新较及时、不需人工干预;缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。( ) 答案:对,实践活动,1、应用搜索引擎中的图片搜索功能,查找并整理历届奥运会会徽图片,看谁搜索得又快又全,将图片粘贴在学案相应位置。,2、尝试在百度或google搜索引擎查询中加入以下的过滤词 ,看看效果如何,思考可以用这种方法解决些什么问题? 过滤词:Site: 例:site: 环境保护,