计算机基础信息检索1ppt课件

上传人:资****亨 文档编号:135511732 上传时间:2020-06-16 格式:PPT 页数:41 大小:900KB
返回 下载 相关 举报
计算机基础信息检索1ppt课件_第1页
第1页 / 共41页
计算机基础信息检索1ppt课件_第2页
第2页 / 共41页
计算机基础信息检索1ppt课件_第3页
第3页 / 共41页
计算机基础信息检索1ppt课件_第4页
第4页 / 共41页
计算机基础信息检索1ppt课件_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《计算机基础信息检索1ppt课件》由会员分享,可在线阅读,更多相关《计算机基础信息检索1ppt课件(41页珍藏版)》请在金锄头文库上搜索。

1、 第7章信息检索 7 1 1信息检索的概念信息检索 InformationRetrieval 是指信息按一定的方式组织和存储起来 并根据信息用户的需要找出有关信息的过程和技术 信息检索的全称是信息存储与检索 InformationStorageRetrieval 其过程如图7 1所示 20世纪50年代以前 信息的存储和传播主要是以纸介质为载体 信息检索活动主要围绕着相关文献的获取和利用展开 因此 文献检索 成为信息检索的同义词而被广泛地使用 20世纪50年代以后 信息传播与存储呈多元化发展 人们不再拘泥于载体研究信息检索 开始更多地使用 情报检索 这一术语 近年来 由于英文词汇 Informa

2、tion 既可以翻译为信息 又可以翻译为情报 而汉语中信息一词要比情报的含义更为丰富 因此人们更倾向于使用信息检索这一术语 7 1信息检索概述 青岛大学公共计算机基础教学中心 第7章信息检索 7 1 1信息检索的概念 7 1信息检索概述 青岛大学公共计算机基础教学中心 第7章信息检索 7 1 1信息检索的概念信息检索包括两个层次的含义 广义的信息检索和狭义的信息检索 广义的信息检索包括信息的存储和查找两个过程 如图7 1所示的全部过程就是广义的信息检索 信息的存储就是将大量无序的文献信息进行搜集 整理 归类 采用规范的方法进行编排 编制出各种检索系统 信息查找必须先有信息存储 而信息存储就是为

3、了更快捷地查找信息 信息查找则是信息存储的逆向过程 是人们根据特定需要 运用已有的检索系统 有序查询并找出符合要求的信息 狭义的信息检索是指信息的查找过程 只包括图7 1中的后半部分 本书中讨论的信息检索就是狭义的信息检索 7 1信息检索概述 青岛大学公共计算机基础教学中心 第7章信息检索 7 1 2信息检索的类型1 根据检索对象划分根据检索对象的不同 信息检索分为文献检索 事实检索和数据检索三种 1 文献检索 文献检索以文献为检索对象 查找含有用户所需信息的文献 文献检索是一种相关性检索而非确定性检索 系统不直接回答用户所提出的问题本身 它提供的是与用户信息需求相关文献的线索或原文 2 事实

4、检索 事实检索以特定的事实为检索对象 是存储有关课题 如机构 人物等 的指示性描述 或关于某一事件发生的时间 地点 经过等信息 并将其查找出来的检索 属于确定性检索 3 数据检索 数据检索以数据为检索对象 属于确定性检索 它是将经过选择 整理 鉴定的数据存入数据库中 根据需要查出可回答某一问题的数据的检索 例如 查找公式 数据 图表 成分 性能等都属于数据检索的范畴 7 1信息检索概述 青岛大学公共计算机基础教学中心 第7章信息检索 7 1 2信息检索的类型2 按检索方式划分按检索方式的不同 信息检索可以分为手工检索 机械检索和计算机检索三种方式 1 手工检索 手工检索就是以人工的方式直接查找

5、所需的信息 多利用各种检索工具的印刷版来实现 例如印刷的目录 题录 文摘 索引等 手工检索直观 不需要辅助设备 但速度慢 漏检严重 2 机械检索 机械检索也称机电式检索 是指运用打孔机 分类机及光电感应设备等进行的检索 机械检索过分依赖设备 成本较高 检索效果和质量都不太理想 3 计算机检索 计算机信息检索是将大量的文献资料或数据进行加工整理 按一定格式存储在数据库中 利用计算机对数据库进行检索的信息检索方式 与手工检索相比 计算机检索速度快 效率高 查全率高 不受时空限制 检索结果输出方式多样 除上述两种主要的分类方式外 信息检索还有另外多种分类方式 例如按照检索对象的信息组织方式可以分为全

6、文检索 超文本检索和超媒体检索 按照检索对象的形式可分为文本检索和多媒体检索 按照检索要求可分为强相关检索和弱相关检索 按检索的时间跨度可分为定题检索和回溯检索 7 1信息检索概述 青岛大学公共计算机基础教学中心 第7章信息检索 7 1 3信息检索模型1 布尔检索模型布尔检索模型是基于集合论和布尔代数的一种简单检索模型 由于集合是一个相当直观的概念 所以布尔检索模型为信息检索系统的普通用户提供了一种易于掌握的框架 在布尔检索模型中 查询被描述为具有精确语义的布尔表达式 因为该模型的简单性和易于表示的形式方法 在很长一段时间内都受到重视 然而 布尔检索模型的缺点也是相当明显的 首先 该模型的检索

7、策略是基于二值决策准则 即一个文档只被判别为相关的或无关的 而没有任何等级变化 难以提高检索性能 因此布尔检索模型主要用于实现数据检索模型 而不是信息检索模型 其次 这种方法将构造一个合适的查询的责任推到用户身上 用户必须详细规划自己的查询 其复杂程度不亚于编写程序 普通用户无法用布尔表达式描述他们的查询请求 于是一些研究人员改进了布尔模型 提出了向量空间模型 7 1信息检索概述 青岛大学公共计算机基础教学中心 第7章信息检索 7 1 3信息检索模型2 向量空间模型向量空间模型是一种基于代数理论的检索模型 在向量空间模型中 一个文档被描述成由一系列关键词组成的向量 每一个关键词都是这个向量空间

8、中的一维 同样道理 来自用户的查询也可以用向量来表示 当进行一个查询时 向量空间模型将计算查询和文档表示之间的相似度 例如可以用两个向量之间的欧氏距离或两个向量之间的余弦夹角表示二者之间的相似度 然后对检出的文档按照相似度进行降序排列 以实现文档与查询项的部分匹配 于是查询结果集中文档的排列顺序要合理的多 与布尔检索模型相比 向量空间模型改善了检索性能 其部分匹配的策略允许所检索的文档与查询条件相近似 同时还能够按照文档与查询的相似度对文档进行排序 但在向量空间模型中 各索引项之间是互相独立的 无法对文档中的索引项提供相关性信息 而在实际中 需要考虑各索引项之间的相关性才能得到满意的查询结果

9、向量空间模型适合一般的文档集的相似性排序 通过查询扩展或相关反馈 可以改善模型产生的结果集 向量空间模型与其他检索模型相比较 即使不是最优的 其性能也相当好的 因此该模型是目前普遍采用的信息检索模型 7 1信息检索概述 青岛大学公共计算机基础教学中心 第7章信息检索 7 1 3信息检索模型3 概率检索模型概率检索模型是一种基于概率论的检索模型 试图在一个概率框架内处理信息检索问题 概率检索模型假设给定一个用户的查询 则有一个只包含相关文档且不包含无关文档的理想结果集 如果能够给出这个理想结果集的描述 检索文档时就十分方便了 最初我们并不能精确给出理想结果集 但猜测允许我们产生一个初步的对理想结

10、果集的概率描述 用于检索出初始的文档集 然后引入用户的交互 以改善理想结果集的概率描述 用户浏览检索出文档 并决定哪些文档是相关的 哪些是无关的 然后信息检索系统利用这个信息 修改理想结果集的描述 通过多次重复这个过程 不断修改描述并逐步接近理想结果集的真实描述 从理论上讲 概率检索模型检出的文档将按照相关的概率降序排列 这符合我们的查询要求 但在该模型中 需要最初将文档分为相关的和无关的两个集合 并且与向量空间模型一样 各索引项之间是独立的 无法对文档中的索引项提供相关性信息 7 1信息检索概述 青岛大学公共计算机基础教学中心 第7章信息检索 7 1 4信息检索效果的评价检索效果 Retri

11、evalEffectiveness 是指用户利用检索系统实施检索的有效程度 也是某次检索满足用户信息需求的程度 它直接反映了检索系统的性能和本次检索的成败 判定信息检索效果的主要标准包括查全率 查准率 漏查率 误查率等 1 查全率查全率 RecallRatio 又称检全率 是指用户进行某次检索时 系统检索出的所有信息量与检索系统中相关信息总量的比率 具体可用下面的公式表示 7 1信息检索概述 青岛大学公共计算机基础教学中心 第7章信息检索 7 1 4信息检索效果的评价2 查准率查准率 PrecisionRatio 又称检准率 是指用户进行某次检索时 系统检索出的符合课题需要的相关信息量与检索出

12、的信息总量的比率 具体可用下面的公式表示 3 漏查率漏查率 OmissionRatio 又称漏检率 是指用户进行某次检索时 系统未检索出的相关信息量与检索系统中相关信息总量的比率 具体可用下面的公式表示 7 1信息检索概述 青岛大学公共计算机基础教学中心 第7章信息检索 7 1 4信息检索效果的评价4 误查率误查率 MissRatio 又称误检率 是指用户进行某次检索时 系统检索出的不相关信息量与检索出的信息总量的比率 具体可用下面的公式表示 7 1信息检索概述 青岛大学公共计算机基础教学中心 第7章信息检索 7 2 1Internet网络信息检索方法1 网络浏览网络浏览是Internet上发

13、现和检索信息的最原始方法 在日常的网络阅读中 人们都有过意外发现有用信息的体验 尤其是网页中提供的超链接 使用户可以在Internet中 顺链而行 从一个网页转到另一个网页 追踪某个网页的相关链接有些类似于传统文献检索中的 追溯检索 即根据文献后所附的参考文献追溯相关文献 一轮一轮地不断扩大范围 这种方式可以在很短时间内获得大量相关信息 但也可能会偏离检索目标 因此搜索的结果可能带有某种偶然性和片面性 严格地说 网络浏览并不是一种真正的网络信息检索方法 当我们在网络浏览中发现有价值的信息后 应及时收藏这些信息页面 为今后的使用提供方便 7 2Internet网络信息检索 青岛大学公共计算机基础

14、教学中心 第7章信息检索 7 2 1Internet网络信息检索方法1 网络浏览网络浏览是Internet上发现和检索信息的最原始方法 在日常的网络阅读中 人们都有过意外发现有用信息的体验 尤其是网页中提供的超链接 使用户可以在Internet中 顺链而行 从一个网页转到另一个网页 追踪某个网页的相关链接有些类似于传统文献检索中的 追溯检索 即根据文献后所附的参考文献追溯相关文献 一轮一轮地不断扩大范围 这种方式可以在很短时间内获得大量相关信息 但也可能会偏离检索目标 因此搜索的结果可能带有某种偶然性和片面性 严格地说 网络浏览并不是一种真正的网络信息检索方法 当我们在网络浏览中发现有价值的信

15、息后 应及时收藏这些信息页面 为今后的使用提供方便 7 2Internet网络信息检索 青岛大学公共计算机基础教学中心 第7章信息检索 7 2 1Internet网络信息检索方法2 使用搜索引擎检索信息搜索引擎作为主要的Internet网络信息检索工具 能够向用户提供关键词 词组或自然语言检索 在网络信息检索中具有重要的地位 在进行信息检索时 由户提出检索要求 搜索引擎代替用户在数据库中进行查找 并将检索结果反馈给用户 一般情况下 搜索引擎具有布尔检索 词组检索 截词检索 字段检索等多种功能 利用搜索引擎实施检索省时省力 简单方便 检索速度快 能及时获取新增网络信息 但由于搜索引擎使用计算机程

16、序自动进行信息的加工 处理 检索软件的智能性不是很高 会造成检索的准确性不是很理想 与人们的检索需求及对检索效率的期望存在一定的差距 7 2Internet网络信息检索 青岛大学公共计算机基础教学中心 第7章信息检索 7 2 1Internet网络信息检索方法3 使用网络资源指南检索信息开发网络资源指南的目的是可实现对网络信息资源的智能性查找 为了对Internet上的信息资源加以组织和管理 使大量有价值的信息纳入一个有序的组织体系 便于用户全面掌握网络资源的分布 专业人员基于对网络信息资源的产生 传递与利用机制的广泛了解 以及对网络信息资源分布状况的熟悉 使用采集 组织 评价 过滤 控制 检索等各种手段 开发出用于快速检索信息的网络资源指南 网络资源指南会根据网络信息的主题内容进行分类 并以等级目录的形式进行组织 在Internet上 综合性的网络资源指南广受欢迎 最著名的就是Yahoo目录 而专业性的网络资源指南也很普遍 几乎每一个学科专业 重要课题 研究领域的网络资源指南都可以在Internet上找到 例如中国高等教育文献保障系统CALIS 7 2Internet网络信息检索 青

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号