《精编》信息检索技术讲义

上传人:tang****xu4 文档编号:133129161 上传时间:2020-05-24 格式:PPT 页数:83 大小:657KB
返回 下载 相关 举报
《精编》信息检索技术讲义_第1页
第1页 / 共83页
《精编》信息检索技术讲义_第2页
第2页 / 共83页
《精编》信息检索技术讲义_第3页
第3页 / 共83页
《精编》信息检索技术讲义_第4页
第4页 / 共83页
《精编》信息检索技术讲义_第5页
第5页 / 共83页
点击查看更多>>
资源描述

《《精编》信息检索技术讲义》由会员分享,可在线阅读,更多相关《《精编》信息检索技术讲义(83页珍藏版)》请在金锄头文库上搜索。

1、专题二 信息检索技术 本专题内容 第一节布尔逻辑检索第二节截词检索第三节位置检索第四节限定检索第五节全文检索第六节引文检索 第一节布尔逻辑检索 一 布尔逻辑运算符二 布尔逻辑运算符的运算次序三 布尔表达式编制注意事项四 布尔检索表达式的特点 优缺点 检索单元 单元词检索 Scomputer13000computer多元词检索 Sinformationretrieval21300informationretrieval 一 布尔逻辑运算符 布尔逻辑检索的布尔逻辑表达式是采用布尔逻辑运算符 逻辑与 and 逻辑或 or 逻辑非 not 来连接运算分量 检索词 以及表示运算优先级的括号组成的一种表达

2、检索要求的一种算式 简称提问逻辑式 逻辑与 and 逻辑或 or 逻辑非 not 逻辑或 or AorB A B信息源中含有检索词A或B的所有信息均为命中对象 逻辑或可以实现扩检 增强检全率 布尔或关系文氏图 逻辑与 and AandB A B同时含A B两个检索词的信息为命中信息 逻辑与运算 可以增强查找的专指性 提高检准率 布尔与关系文氏图 逻辑非 not AnotB A B B A逻辑非运算是一种排除性运算 逻辑非运算必须与逻辑与运算同时使用 在实际检索中 常常在一个检索中间结果中使用 非 运算 用来排除指定的其中某类文献 以提高检索的查准率 布尔非关系文氏图 二 布尔逻辑运算符的运算次

3、序 对于一个布尔检索逻辑表达式 计算机的处理总是从左向右进行的 遵循四则运算 对于运算符or and not 它们的运算优先次序在不同的系统中有着不同的规定 DIALOG not and or对同一个布尔逻辑提问式来说 不同的运算次序将会产生不同的检索结果 练习 练习1有关上海市内的河流污染的文献 A上海市内B河流C污染练习2对日本与美国的军队信息化建设方面进行比较的文献 A日本B美国C军队信息化建设练习3有关日本或者美国的军队信息化建设方面的文献 A日本B美国C军队信息化建设练习4有关除了大米以外的谷物进口的文献A谷物B大米C进口 三 布尔表达式编制中的注意事项 1 概念整体与部分的关系 2

4、 慎用 not 3 布尔逻辑算符的使用技巧 1 概念整体与部分的关系 例如 检索关于欧洲能源问题的文献 欧洲 Europe 能源 Energy Europe Engergy 概念检索 同义扩展 相关概念的联想 Europe Britain France Italy Spain Energy coal petroleum naturalgas 练习 查找 有关上海市内的河流污染的文献 A上海市内 B河流 C污染 上海市 黄埔区 卢湾区 河流 黄埔江 苏州河 暗沟 污染 2 慎用 not 避免将非运算和或运算一起使用 否则将会再现滥检现象 检索逻辑 not 慎用 否则会检索失败 例如 NOT计算机

5、OR软件militaryaircraftNOTaircraft computer software NOTharware 3 布尔逻辑算符的使用技巧 当采用逻辑与 连接检索词时 尽可能将出现频率低的词放在 之前 其目的是为了使否定的答案尽早排除 要求较高的查准率 采用逻辑或 连接检索词时 将出现频率高的词放在 之前 确保命中答案尽早出现 保证较高的查全率 四 布尔检索表达式的特点 优点 与思维习惯一致查找出有关某一主题的文献同时包含主题A和主题B的文献主题A和主题B只要有一种即可获得主题A的文献 但排除其中含有主题B的文献表达方式直观清晰方便扩检与缩检增加逻辑或 扩检 增加逻辑与 缩检 缺点

6、检索输出量难以控制 检索结果不能根据用户的检索需求按重要程度顺序排序输出 对于文献描述与布尔查询中的词汇无重要层次之分 过分依赖于检索用词 检索效果不甚理想 布尔逻辑检索小结 布尔检索技术一直是信息检索系统采用的主要检索技术之一 布尔逻辑检索反映了检索词之间的逻辑关系 属于一种定性的信息检索技术 这种定性检索难以分辨出检索结果之间的重要程度 严格的二值逻辑判断 使单纯布尔逻辑检索的结果缺乏 量 的比较 第二节截词检索 模糊检索 截词检索利用检索词的词干或不完整的词形进行检索 在检索标识中保留相同部分 用相应的截词符 代替可变化部分进行的检索 截词检索类型 一 按截断字符数量分 有限截断 无限截

7、断 二 按截词位置分 左截断 右截断 中间截断 词干后至多跟与截字符相同的字符数DIALOGchild child children childish childlikeORBITchild BRSchild 4 一 按截断字符数量分 1 有限截断 LimitedTruncation 有限截断一个字符DIALOGtechnique technique techniquesORBITtechnique BRStechnique 1 Sau pauling l pauling l pauling linus pauling linusc pauling linuscarling Spy 199 检

8、出文档中所有20世纪90年代出版的文献 Spollut pollutant pollutants pollute polluting pollution 2 无限截断 unlimitedtruncation 也称 开放式截断 DIALOG中 词干后跟一个 ORBITpollut BRSpollut 二 按截断位置分 1 右截断 righttruncation 右截断主要用于 词的单复数book Child 同根词color 作者au chamberlain a 出版年py 199 注意 右截断截得过短易造成大量误检 ORBIT BRS有限和无限左截断 DIALOG无此功能 hydroxy 羟基

9、 dehydroxy dihydroxy hydroxy 2 hydroxydehydroxy dihydroxy hydroxy 2 左截断 lefttruncation 举例 magneticelectro magneticelectromagneticparamagneticthermo magneticthermomagnetic ORBIT magneticBRS magnetic 3 中截断 internaltruncation 中截断 也称嵌入式截词organi ation organization organisationwom n woman womanly women 中截

10、断主要用于 第一 单复数在词中元音上变化的情况 manmen goosegeese第二 动词与名词拼写的不同 adviceadvise第三 同一单词英美拼写的差异 defensedefence ORBIT前后截词 CHEMICALCHEMISTRYCHEMISORPRIONCHEMISTELECTROCHEMICALELECTROCHEMISTRYPHYSICOCHEMICALPHYSICOCHEMISTRYTHERMOCHEMICALTHERMOCHEMISTRY CHEMI 主要联机系统拥有的截词功能 截词检索的作用 扩大查找范围 提高检全率 减少检索词的输入量 简化检索步骤 节省费用 第

11、三节位置检索 邻近检索 一 概念及作用二 常用的位置逻辑算符三 位置算符的综合运算四 位置非算符 在 美国商业与工业管理索引ABI INFORM 查找有关 利用计算机犯罪 的文献 ABI INFORM Copr DataCourierInc scomputercrime10COMPUTERCRIME sscomputer andcrime 223428COMPUTER 31178CRIME 43002AND3 t4 4 1 4 4 1ScotlandYardtoBattleEscalatingCrimewithComputerizedCommandandControlSystemAnonymo

12、usComputerworldv16n37pp 18 19Sep13 1982TheMetropolitanPoliceForceatScotlandYardhasinstalledacomputerizedcommandandcontrolsystem ThesystemwillplaceLondon sbobbiesatthevanguardofmoderncomputingandcommunicationstechnology Whenthesystemisfullyoperational thepolicedepartmentwillhavedirectconnectionswitht

13、hePoliceNationalComputerforimmediateaccesstosuchinformationasfingerprintrecords 一 概念及作用 位置逻辑检索 ProximitySearching 通过位置逻辑算符规定词间位置关系所进行的检索 位置逻辑算符即邻接算符 是表示词间位置关系的符号作用表达复杂概念 解决词表规范词数量不足和词表不全的困难 提高查找深度 二 常用的位置逻辑算符 以DIALOG为例 位置检索大致包括下列四种级别的检索 一 词位置检索 二 子字段或自然句级检索 三 字段级检索 四 记录级检索 一 词位置检索 1 W 或 词位置顺序紧连With表

14、示 w 连接的两词相邻 词序不变 两词之间可有单个空格 标点符号 连字符 ssolar w energy ssolar energy可检得含有固定词组 solarenergy 的结果 son w line可检出online或on line sx w ray可检出x ray 比较检全率 ssolar w energy ssolarenergy ssolarandenergy 2 nW 位置顺序隔词 nWord nW 表示 nW 所联接的两词之间可含有0 n个词 两词次序不能颠倒 slaw 2W sea可以检出LAWOFTHESEA scomputer 1W communication可检出 co

15、mputercommunication computerandcommunication computerforcommunication sscomputer w crime S5154COMPUTER W CRIME 82027316TimeBanditsMiksanek ChrisInterface DataProcessingMgmtv7n3pp 8Autumn1982ThecostofcomputercrimetoUSbusinesseswillexceed 200millionin1982 Althoughtheftofcomputertimeoccursinmostdatapro

16、cessing DP centers veryfewDPmanagersareawareof 92003058Stop Thief TrendstoEyein 92Johnson BobComputerworldv16n1pp 72 76Dec28 1991 Jan4 1992Becausethedataprocessedbycomputersisintangible unlimitedpossibilitiesexistforthecomputercriminaltoobtain misuse ordestroyinformationand conceivably ruinandorganization RecentreportshaveestimatedUScorporatelossesofnearly 100millionbecauseofcomputer relatedcrime theaveragelossisestimatedatmorethan 600 000 sscomputer 1w crime S6170COMPUTER 1W CRIME 3 N 词位置紧连 Nea

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号