2019年第三章计算机信息检索技术ppt课件

上传人:我*** 文档编号:149113497 上传时间:2020-10-24 格式:PPT 页数:54 大小:956.50KB
返回 下载 相关 举报
2019年第三章计算机信息检索技术ppt课件_第1页
第1页 / 共54页
2019年第三章计算机信息检索技术ppt课件_第2页
第2页 / 共54页
2019年第三章计算机信息检索技术ppt课件_第3页
第3页 / 共54页
2019年第三章计算机信息检索技术ppt课件_第4页
第4页 / 共54页
2019年第三章计算机信息检索技术ppt课件_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《2019年第三章计算机信息检索技术ppt课件》由会员分享,可在线阅读,更多相关《2019年第三章计算机信息检索技术ppt课件(54页珍藏版)》请在金锄头文库上搜索。

1、10/24/2020,计算机信息检索技术,武汉大学图书馆 理科学科馆员 欧懿,10/24/2020,计算机信息检索技术 检索策略的制定与检索实施步骤 检索结果的评价与检索策略的调整,本章主要内容,10/24/2020,在进行计算机检索时,有时有一些比较复杂的课题,如:“计算机信息检索”,既涉及计算机,又涉及信息检索,这时候就要编制出满足要求的计算机检索式,它是机检的基础。 布尔逻辑检索 截词检索 位置检索 词组检索 字段限定检索,一.计算机信息检索技术,计算机信息检索技术,10/24/2020,运用布尔逻辑算符(Boolean operators)对检索词进行逻辑组配,表达两个概念之间的逻辑关

2、系。 布尔逻辑算符主要有: AND OR NOT 在中文数据库里,布尔逻辑运算符有时用AND、OR、NOT表示,有时用“*”、“”及”“ 。,1.布尔逻辑检索,计算机信息检索技术,10/24/2020,表示概念的相交、限定,缩小检索范围,提高检准率。 用运算符号:AND 或* 连接检索词 A B A AND B,逻辑与(逻辑乘),计算机信息检索技术,10/24/2020,A=汽车发动机,B=飞机发动机,汽车与飞机发动机,A,B,A and B 逻辑“与”运算,计算机信息检索技术,10/24/2020,人类活动对群落多样性的影响 检索概念: 人类活动群落多样性影响 检索式 人类活动AND 群落多

3、样性 人类活动AND 群落多样性AND 影响,计算机信息检索技术,10/24/2020,人类活动 and 群落多样性,计算机信息检索技术,10/24/2020,表示概念的平行、并列,用于扩大检索范围,提高查全率 用运算符“OR” 或“+”连接两检索词 A B A OR B,逻辑或(逻辑乘),计算机信息检索技术,10/24/2020,逻辑或(OR 或+ ) 乙肝病毒的研究 检索词: 乙肝 乙型肝炎 HBV Hepatitis B virus 检索式: 乙肝OR 乙型肝炎OR HBV Hepatitis B virus OR HBV,计算机信息检索技术,10/24/2020,计算机信息检索技术,1

4、0/24/2020,去掉一个主题中某一部分的主题,用于缩小检索范围,提高查准率; 用运算符号“NOT”或“-”连接两检索词 例1 查“玉米但不是甜玉米”方面的文献。 检索式=玉米-甜玉米 例2 查“国外有关数字图书馆方面”的文献 检索式=数字图书馆-国内,逻辑非,计算机信息检索技术,10/24/2020,运算顺序:NOTANDOR 可通过( )来改变运算的优先顺序 例:乙肝病毒受体的筛选 检索词: HBV、Hepatitis B virus、receptor、screen 检索式: (HBV OR Hepatitis B virus) AND receptor AND screen,AND、O

5、R、NOT的综合应用,计算机信息检索技术,10/24/2020,计算机信息检索技术,10/24/2020,在实际检索中,常遇到词干相同、词义相近的检索词,或同一词的单、复数形式,动、名词形式,英美拼法等。 所谓截词检索,是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中计算机会将所有含有相同部分标识的记录全部检索出来。常用“?”、“*”符号表示。 用截词符号“?”、“*”或“$”加在检索词的前后或中间,以检索一组概念相关或同一词根的词。 这种检索方式可以扩大检索范围,提高查全率。 截词运算符号通常有两个:“?、*” 。其在不同系统中表示的含义不同。,2.截词检索,计算机信息检

6、索技术,10/24/2020,按截断的位置分: 后截断 前截断 中间截断 按截词的字符数量分: 有限截词 无限截词,计算机信息检索技术,10/24/2020,在检索词后(右方)截断有限或无限的字母。 如:librar* library、librarian、libraries 主要用于词的单复数检索、词根检索(socio*)、年代检索(199*),后截断,计算机信息检索技术,10/24/2020,将截词符号放在检索字符串的左方,以表示其左边不管截去有限或无限个字符,只要数据库中具有与截词符后面部分字符相同的检索词的文献, 即为命中文献。这种方式也称为后方一致。 如:*chemistry micr

7、ochemistry、macrochemistry 目前使用较少,前截断,计算机信息检索技术,10/24/2020,又称作“通用字符法”或“内嵌字符截断”。在检索词中间加一个或几个?号,主要解决一些英美拼写不同,单复数形式的不同的词的输入,可简化输入。 如:输入wom?n可检出woman,women 输入defen?e可检出defence、defense,中间截断,计算机信息检索技术,10/24/2020,即在检索词后截去有限的字母,如名词的单复数,动词的词尾变化等。 例如: 输入computer?表示有0-2个字母变化,可检出 computer和computers. 输入stud?表示截断处

8、有0-3个字母变化,可检出 study, studies, studied。,有限截词,计算机信息检索技术,10/24/2020,不限制被截断的字符数量。在检索词后加一个“*“,表示该词后可加任意个字符。 使用无限截词,所截词根不能太短,否则会输出许多无关文献,造成误检。 例如:educat* 可检出educator, educators, educated, educating, education 如:输入computer?表示可检出computer和computers. 如:输入stud? 表示可检出study,studies,studied,studing.,无限截词,计算机信息检索技

9、术,10/24/2020,功能:两词出现在同一自然句中,其词序与词量不受限制(SCI中专用) 表达式:Education SAME school 检索结果:Education 和school两词出现在同一句子中即可。 特别注意事项:不是所有的检索系统都支持位置算符,不同的检索系统对位置算符有不同的表示符,同一位置算符在不同检索系统中指代的含义可能也不尽相同。,3.位置算符SAME,计算机信息检索技术,10/24/2020,将一个词组或短语用双引号“ ”括起作为一个独立运算单元,进行严格匹配,以提高检索准确度。 如:“Global Positioning System”, 只检索出规定字段中包含

10、完整词组的记录。,4.词组检索,计算机信息检索技术,10/24/2020,不加“”,命中13815条,计算机信息检索技术,10/24/2020,加“”,命中8125条,计算机信息检索技术,10/24/2020,组成数据库的最小单位是记录,一条完整记录的每个著录事项为字段。 在许多检索检索系统中,为了提高查全率或者查准率,需要将检索过程限制在特定的字段中,即字段检索。,5.字段检索,计算机信息检索技术,10/24/2020,计算机信息检索技术,10/24/2020,10/24/2020,计算机信息检索技术,10/24/2020,检索示例:有关“企业知识产权研究”,检索式 检索结果 (*表示AND

11、,+表示OR,限定篇名字段) (2019-2019) 1 企业知识产权 191篇(准确度最高漏检大) 2 企业*知识产权 404 (漏检率较高 ) 3 (企业+集团+公司)* 知识产权 466 (适合综述性文献) 4 (企业+集团+公司)* (知识产权+专利权 520 (查全率查准率较高) +商标权+著作权+名称权) 5 (企业+集团+公司)* (知识产权+专利权 137 (缩小范围效果最佳) +商标权+著作权+名称权)* 保护,10/24/2020,检索结果表明: 检索词的选择、逻辑算符的使用、同义词近义词的扩展、检索字段的选择等变化,对检索结果数量的多少、检索的查全和查准有很大影响,10/

12、24/2020,分析检索主题, 明确检索要求 确定学科范畴,选择数据库(注意数据库所收录文献的学科、文献类型、回溯年代、语种、更新频率等) 选择检索字段(您所输入的检索词出现的位置,如:篇名、作者、摘要、作者单位等) 限定检索条件(如年代、学科、文献类型、语种等) 正确应用各种算符 根据检索结果对上面的检索步骤进行调整,二.计算机检索程序与步骤,计算机检索程序与步骤,10/24/2020,分析检索主题的中心内容和所属学科范围,以便准确选择反映文献内容特征的主题词、关键词和学科范畴。 明确检索需求要求,即弄清检索目的及要解决的问题。 检索目的和要求是多种多样的,是撰写学位论文,还是申报科研课题,

13、是技术革新还是成果鉴定,目的不同,检索的策略和范围也不同。检索需求要求?主要反映在用户对命中文献的类型、语种及所需文献的年代等方面的要求。,1.分析检索主题,明确检索要求,计算机检索程序与步骤,10/24/2020,在分析检索课题,明确检索要求的基础上,综合考虑检索系统的特点、收录的学科范围、各数据库的专业范围、主题内容、数据来源与文献类型、标引的深度及准确度、技术含量、数据的存贮年限、更新频率、检索速度、界面的友好程度以及检索费用、使用方法等因素。 在同时有几个数据库可供检索的情况下,应首先选择比较熟悉的数据库。 当用户要求检索的文献量比较大时,可首先用浏览的方式,按主题或学科专业的方式查找

14、。,2.确定学科范畴,选择数据库,计算机检索程序与步骤,10/24/2020,检索词是表达用户信息需求和检索课题内容的基本元素,也是计算机检索系统进行匹配的基本单元。正确的主题分析是制定检索策略的保证,它决定了检索策略的质量和检索效果的好坏。因此,务必要在分析课题的主题概念中掌握课题的内容实质,概括出能最恰当地代表主题概念的检索词。 在选择检索词时应考虑将课题内容分解或综合成某些概念,提炼核心概念,发掘隐含概念,排除非核心与宽泛概念,力求检索词能反映用户信息需求和检索主题内容。,3.确定检索词,编制检索式,计算机检索程序与步骤,10/24/2020,先选用主题词 选用常用的专业术语 避免选用高

15、频词或低频词 选用同义词、多义词与相关词,确定检索词时的注意事项,计算机检索程序与步骤,10/24/2020,当所选的数据库具有规范化词表时,应优先选用该数据库词表中与检索课题相关的规范化主题词,从而可获得最佳的检索效果。 例: 自由词:Computer vision Machine vision 主题词(叙词): Vision systems 如:海绵 自由词表述:海绵 规范化主题词表述:聚氨酯泡沫塑料,优先选用规范化主题词和专业术语,兼顾自由词,计算机检索程序与步骤,10/24/2020,在数据库没有专用的词表或词表中没有可选的词时,可以从一些已有的相关专业文献中选择常用的专业术语作为检索

16、词。,选用常用的专业术语,计算机检索程序与步骤,10/24/2020,检索时避免使用频率较低或专指性太高的词,一般不选用动词和形容词;不使用禁用词;尽量用或不用不能表达课题实质的高频词,如“分析”、“研究”、“应用”、“方法”、“发展”、“设计”等词。 必须用时,应与能表达主要检索特征的词一起组配,或增加一些限制条件再用。,避免使用低频词或高频词,计算机检索程序与步骤,10/24/2020,同一概念的几种表达方式,如化学分析有chemical analysis,analytical chemistry, chemical determination,composition measurement等。 同一名词的单复数、动词、动名词、过去分词形式等,如生产有product,production,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号