计算机信息检索原理.

上传人:我** 文档编号:117871376 上传时间:2019-12-11 格式:PPT 页数:46 大小:298.50KB
返回 下载 相关 举报
计算机信息检索原理._第1页
第1页 / 共46页
计算机信息检索原理._第2页
第2页 / 共46页
计算机信息检索原理._第3页
第3页 / 共46页
计算机信息检索原理._第4页
第4页 / 共46页
计算机信息检索原理._第5页
第5页 / 共46页
点击查看更多>>
资源描述

《计算机信息检索原理.》由会员分享,可在线阅读,更多相关《计算机信息检索原理.(46页珍藏版)》请在金锄头文库上搜索。

1、 计算机检索原理 与 检索方法 计算机检索原理 信息检索原理 信息检索实质上包括信息存贮和信息检 索两 个过程: l信息存贮过程是依据检索语言对原始信 息进行处理和标引,形成信息特征标识 ,为检索提供经过整序的信息集合的过 程。 l信息检索是参照检索语言体系对检索课 题进行分析,形成检索提问标识,从信 息集合中检出相关文献信息的过程。 信息检索原理 原始信息信息分析、著录和标引 信息检索系统 l信息检索原理图 检索课题课 题 分 析 检 索 语 言 检索结果 信息存贮 信息检索 提问标识 标引标识 信息检索的实质 检索提问标识与存贮在检索系统中的标 引标识进行比较,两者一致或信息标引 的标识包

2、含着检索提问标识,则具有该 标识的文献信息就从检索系统中输出, 输出的文献信息就是检索命中的信息。 检索语言 q概念 为了使检索的过程,即信息的标引标识和检索 的提问用语的对比进行顺利,两者都需要用一 定的语言来表达。这就是检索语言。 作用 把信息的存贮和检索联系起来,以保证检索和 存贮的一致性,使文献的标引者和检索者取得 共同理解,从而实现信息检索。 检索语言的种类 -按描述文献特征的不同划分 l1 描述文献外表特征的检索语言 如文章题名、作者姓名、语种、刊名等 l2 描述文献内容特征的检索语言 包括分类语言和主题语言。 检索语言的种类-按加工程度划分 l1 人工语言 主要有分类语言和主题语

3、言 l2 自然语言 如关键词 分类语言 l类是许多具有共同属性事物的集合。 l分类语言是以科学分类为基础,运用概 念划分的方法,对人类知识进行区分与 类集。 l分类语言是用分类号来表达学科体系的 各种概念,将各种概念按学科性质进行 分类和系统排列。 l如 “网络浏览器” TP393.092 常用的分类语言 l中国图书馆图书分类法即中图法 是我国文献分类标引工作的国家标准 l中国科学院图书馆图书分类法 即科图法 l国际十进分类法 主题语言 主题语言是一种描述性语言,直接 用语词表达文献的主题,这些语词就是 表达主题概念的标识。将这些用作标识 的语词按字顺排列并使用参照系统来间 接表达各种概念之间

4、的关系的检索语言 就是主题语言。 信息检索的类型 信息检索的类型 按检索对象分 数值检索 特征:以特定的数值为检索对象。 比如,查找某一统计数据,某一数学公 式,某一材料的成分、性能,某种元件 的型号、参数等。 解决方案:利用手册、年鉴等参考工具 书或数值型数据库来检索。 事实检索 特征:以特定的事实为检索对象。 比如,查找名词术语的解释,了解某人 或某机构的简况,或考证某一事件发生 的前因后果等。 解决方案:利用辞典、百科全书、年鉴 、名录等参考工具书或事实型数据库来 检索。 文献检索 特征:以特定的文献为检索对象。 比如,查找有关某一研究课题的一定年 限内的相关文献,或从事一项发明创造 而

5、需要文献查新等。 解决方案:利用文摘、题录等各种手检 工具书或书目文献型数据库来检索。 信息检索的类型 按检索手段分 l手工检索 l计算机检索 -光盘检索 -联机检索 -网络检索 计算机检索的条件 l硬件 计算机及存贮、打印设备 l软件 信息系统(数据库)及检索软件 l通讯设备 网卡、网线等 l信息使用权 大型商业数据库系统是有 偿使用的,有些学术团体内部的信息资 源仅限其认可的成员使用,需要签订协 议获得使用权 数据库及其类型 l数据库是在计算机存贮设备上按一定方 式存储的相互关联的数据集合。是信息 检索的重要资料来源。 l按照载体的不同,可分为 -联机数据库 -光盘数据库 -网络数据库 数

6、据库类型按内容和功能划分 l书目型数据库 以文档的形式组织起来,提 供文献的题录、文摘等书目信息。 l全文型数据库 存储文献全文或其中的主要 部分的源数据库。 l指南型数据库 供查询某一客体的基本信 息或简况,包括名录、传记等数据库。 l数值型数据库 提供各类数值型数据 l图象数据库 以图形、图象为记录单位 数据库类型按收录专业范围划分 l综合性数据库 收录多个学科或专业的信息资料。如中国期刊网 l专业性数据库 收录单一学科或专业的信息资料。 l专题性数据库 收录某一特定专题的信息资料 数据库的结构字段、记录和文档 字段:文献著录的基本单元,反映文献外部特 征和内容特征的每一项目,在数据库中就

7、称为 字段。如:题名、作者。 基本字段:描述文献的内容特征。如:关键词KW 、 题名TI、文摘AB、全文等 辅助字段:描述文献的外部特征。如:作者AU、 刊名JN、出版时间PY、语种LA等 记录: 由若干不同字段组成的文献单元,一条记录在 数据库中代表一篇文献。 数据库(文档): 由若干数量的记录构成的数据的集合。大型的 数据库检索系统中称为文档。 中国期刊网字段示例 可检索字段 计算机信息检索方法 检 索 流 程 1 1 、分析课题的内容、分析课题的内容 明确需要查找那一方面的文献; 对文献的类型、时间、语种等要求 ; 2 2 、选定数据库、选定数据库 查查明數據庫所覆蓋明數據庫所覆蓋主题主

8、题範圍範圍 查查閱閱數據庫是否收錄適當之文獻數據庫是否收錄適當之文獻类型类型 查查看數據庫之詳細介紹及看數據庫之詳細介紹及說說明明 請教你的圖書館員請教你的圖書館員, , 要求介紹開始檢索之最佳要求介紹開始檢索之最佳 數據庫數據庫 最好选择几个辅助或扩充备用数据库。 3、确定检索词,编制检索式 选定检索詞 利用上下位利用上下位词词或特有名或特有名词词及同及同义词义词、近义词、相近义词、相 关词关词, , 查查阅阅工具如工具如专业词专业词典典, ,字典字典, , 分分类类表等表等. . 编编制检检索式 使用使用逻辑逻辑算符算符( (AND, OR, NOT) AND, OR, NOT) 、截词、

9、位置算截词、位置算 符,符, 限制限制检索条件检索条件至作者至作者, , 刊物或年代刊物或年代 . . 调整其他设定调整其他设定: 选定检索结果的显示方式选定检索结果的显示方式 日期日期, , 相关度等排序相关度等排序 4 进行检索 l可利用数据库提供的不同级别 的检索界 面进行检索 -初级检索 -高级检索 5 分析检索结果 调整检索策略 l不满意 l满意 不滿意 非目標的結果 l檢查檢索名詞的拼写 l增加檢索名詞的準確性 - 查閱工具如 詞表, 字典, 分類表及字彙表, 刪除誤導的名詞 l審查被檢索的數據庫 查閱數據庫之說明 及期刊列表以確定是否覆蓋你所要的主題 重新檢索重新檢索 不滿意 結

10、果太多 l設限制條件至特定欄位及年代 l增加檢索名詞的準確性 - 查閱工具如 詞 表,字典, 分類表及字彙表 l增加檢索策略的準確性 增加使用 ANDs; 減少使用 ORs 重新檢索重新檢索 不滿意 結果太少 l檢查檢索名詞的併字 l增加檢索名詞的普遍性 -查閱工具如 詞 表,字典, 分類表及字彙表 l擴闊檢索策略 減少使用ANDs; 使用 Ors於同義字及替代拼字上 l增加被檢索的數據庫 確定其他數據庫 是否覆蓋你所要的主題 重新檢索重新檢索 滿 意 l是否已全获取所需? 打印、Email 或 存盘 l需否取得題录錄相关的全文 ? 连接全文工具或通过全文服务 6 跟进检索 查查查查看看适当适

11、当的題的題录录以以查查找其他有找其他有关关的文的文献献及檢索及檢索 方式方式 查查查查看名詞索引看名詞索引从从而定出而定出与与己找得的文章相己找得的文章相关关 的的额额外檢索名詞外檢索名詞 進行作者檢索以找出其合著者進行作者檢索以找出其合著者 查看查看文章文章参参考目考目录录以找出相以找出相关关文章(文章(追溯法追溯法) 计算机检索常用算符 1、布尔逻辑运算符 常用的逻辑运算有三种:与、或、非 。 逻辑与:机检的输入符号为“*”或“and”。如 : A*B 逻辑或:机检输入符号为“+”或“or”。如: A+B 逻辑非:机检的输入符号为“-”或“not”,如 :A-B “与”算符 and AND

12、 * “与”算符用于描述概念间的交叉关系和限 定关系。 l含义:检出文献中必须同时包含被其连 接的所有词或词组。 l作用:缩小检索范围,提高查准率。 例如:concrete dams and arch dams power plants and design “或”算符 or OR + “或”算符可描述概念间的并列关系和相关 关系,用来组配同义词或相关词等。 l含义:检出文献中包含有被其连接的任 意一个词或词组。 l作用:扩大检索范围,提高查全率。 例如:dams or hydraulic structure CAD or computer aided design “非”算符 not NOT

13、 - “非”算符用于描述概念间的排斥关系和特 殊限定关系。 l含义:检出文献中必须包含这个算符前 的词,必须不含这个算符后的词。 l作用:缩小检索范围,提高查准率。 例如:energy not nuclear 2、截词符(?或*) 也叫通配符或字符替代符,利用其保留检 索词中的相同部分,允许检索词有一定 范围的变化,提高文献的查全率。 如:comput*(computer、 computers computing) dam* (dam, dams) 3、位置算符 又称为邻近度算符。 文献中词语的相对次序或位置不同,所表达的 含义可能有所不同,而同样一个检索式中词语 的相对次序不同,其表达的检索

14、意图也不一样 。 位置算符的作用是对用作检索词的词组或短语 中的各个单词之间的相对位置进行描述。常用 的有(W)算符、(ADJ)算符、(N)算符 等。 如steel(w)pipe 表示steel pipe 而不是 pipe steel 又如 computer(n)application 表示 computer application 或 application of computer 4、限制检索 1 是对检索词范围(时间、国别、语种、 信息类型等)进行约束或压缩的方法, 它大多通过检索系统的限制符号或限制 指令来实现。 2 是将检索词限定在特定的字段中进行, 如题名字段、文摘字段、关键词字段、 全文字段等。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号