第二讲信息检索策略

上传人:宝路 文档编号:46311428 上传时间:2018-06-25 格式:PPT 页数:118 大小:8.87MB
返回 下载 相关 举报
第二讲信息检索策略_第1页
第1页 / 共118页
第二讲信息检索策略_第2页
第2页 / 共118页
第二讲信息检索策略_第3页
第3页 / 共118页
第二讲信息检索策略_第4页
第4页 / 共118页
第二讲信息检索策略_第5页
第5页 / 共118页
点击查看更多>>
资源描述

《第二讲信息检索策略》由会员分享,可在线阅读,更多相关《第二讲信息检索策略(118页珍藏版)》请在金锄头文库上搜索。

1、信息检索与利用主讲人 潘定红 20111011第二讲 信息检索策略(2)v信息及其类型 v信息检索策略 -检索工具/检索系统 -检索方法 -检索途径 -检索技术 -检索策略*2计算机信息检索技术v计算机检索过程中,为保证检索结果准确全面、 经济高效,各计算机检索系统均为用户提供了多 种不同的检索技术,其中使用最普遍的就是布尔 逻辑检索、截词检索和位置检索 v这几种检索技术是在各类机检系统中常用的,但 由于不同的机检系统使用不同的检索软件,所支 持的检索技术不同、采用的检索算符也不同,因 此实际检索时,应注意查看所用检索系统的说明31、布尔逻辑检索(Boolean Logical)v就是用布尔逻

2、辑算符将检索词、短语或代 码进行逻辑组配,指定文献的命中条件和 组配次序,凡符合逻辑组配所规定条件的 为命中文献,否则为非命中文献 v逻辑算符主要有:逻辑与(And/*)、逻辑 或(Or/+)、逻辑非(And Not/Not/-)4逻辑与:并且/And/*/和v常用检索式为: A 并且 B A and B A * B A B(网络搜索引擎) v含义:检索词A和检索词B用“与”组配,表示检 出同时含有A、B两个检索词的记录 v作用:此算符适于连接有限定关系或交叉关系的 词,能增强检索的专指性,使检索范围缩小,提 高检准率567逻辑或:或者/Or/+/,v常用检索式: A 或者 B A or B

3、AB A,B(搜索引擎) v含义:检索词A和检索词B用“或”组配,它表示 检出所有含有A词或者B词的记录 v作用:此算符适于连接有同义关系或相关关系的 词,如同义词、近义词、相关词、上位词、下位 词等,扩大了检索范围,增加检索结果,提高查 全率(暗含去重的功能)8910逻辑非:不包含/Not/-v常用检索式: A 不包含 B A not B A B(搜索引擎) v含义:检索词A和检索词B用“非”组配,它表示 检出含有A词,但同时不含B词的记录 v作用:此运算适于排除那些含有某个指定检索词 的记录。和逻辑“与”运算的作用类似,可以缩 小检索范围,增强检索的准确性。但如果使用不 当,将会排除有用文

4、献,从而导致漏检 v运用:通过检索结果分析,找出不相干信息的共 同特征,使用“逻辑非”语法排除111213三种逻辑关系图14注意v布尔逻辑的运算可以进行同类项的合并, 如:A*B+A*CA*(B+C) 例如:毒品*法律+毒品*法规=毒品*(法律+ 法规) v在使用布尔逻辑时,必须注意以下几条交 换规则: A*B=B*A:毒品*法律=法律*毒品 A+B=B+A:法律+法规=法规+法律 A-BB-A:云南民族-旅游旅游-云南民 族152、位置检索v是在检索词之间使用位置算符(也称邻近算符 Adjacent Operators),用来规定算符两边的检索 词出现在记录中的位置,从而获得不仅包含有指 定

5、检索词而且这些词在记录中的位置也符合特定 要求的记录 v这种方法能够提高检索的准确性,当检索的概念 要用词组表达,或者要求两个词在记录中位置相 邻/相连时,可使用位置算符 v常用位置算符: (w)/(wn)/(nw);(n)/(nN); pre;ADJ16邻近位置检索:w/withvX w Y (X后面紧接着Y,中间只能出现一个 空格或标点符号) vX wN Y (X后面紧接着Y,而且X和Y之间最 多只能有N个词) v例:tax w8 reform(Ebsco)tax pre/8 reform(proquest)17181920(n)算符nearvX n Y (X靠着Y,可前可后) vX nN

6、 Y (X和Y之间最多只能有N个词,X和Y 可前可后)。 v例:comput* n2 techno*2122将课题名称改写为检索式v检索关键词“中医药”-Chinese Traditional Medicine traditional(n)Medicine (n)chinese v检索关键词 “白色污染”white pollution, white-pollution white(W)pollution 或 white()pollution vTrends in alternative medicine use in the United States trends(1w)alternativ

7、e()medicine ()use(2w)United()States v nanotube、nano tube、nano-tube Nanotube or nano()tube233、截词检索(Truncation)v是指用给定的词干做检索词,查找含有该词干的 全部检索词的记录,也称词干检索或字符屏蔽检 索 v名词的单复数形式,词的不同拼写法,词的前缀 或后缀变化,模糊查询时,均可采用此方法 v可以起到扩大检索范围,提高查全率,减少检索 词的输入量,节省检索时间,简化检索过程,降 低检索费用等作用 v截词的方式:按截断部位可分为右截断、左截断 、中间截断、复合截断等;按截断长度可以分为 有限

8、截断(一个截词符只代表一个字符)和无限 截断(一个截词符可代表多个字符)24(1)右截断/前方一致v截去某个词的尾部,使词的前方一致,也 称前方一致检索 v截词符: *无限截词符,代表零个或多个字符 $代表零个或一个字符 ?只代表一个字符 #,+, % v注意:至少键入一个词的前3个字符(英文 ),例:geolog*geological or geologic or geologist or geologize or geology252627模糊查询:28(2)中截断:29(3)左截断/前截断/后方一致如:computer or macrocomputer or minicomputer =

9、 *computer30314、短语检索v使用引号组合关键词,可以将关键词或关 键词的组合作为一个字符串进行检索 v如下列检索式检索到的结果大相径庭 “information share”=information w share information share323334课题:论语动词配价研究35比较:36比较:375、优先算符:( )v对于一个复杂的逻辑检索式,检索系统的 处理是从左向右进行的(或按照NOT、AND 、OR的顺序进行运算)。在有括号的情况 下,先执行括号内的运算;有多层括号时 ,先执行最内层括号中的运算,逐层向外 进行(一般只允许嵌套2-3层) v注意:英文数据库要求用英

10、文状态,维普 要求中文半角输入状态,不认可全角黑体 的括号383940比较:41426、字段揭示算符及限制算符v常用字段揭示算符: KY(关键词) DE(规范的主题词) AB(文摘 字段) TI(题名) JN /SO (刊名) LA(语 言) PY(出版年) AU(作者) ID(自然词 汇) v限制算符 = (连接语种、出版时间、文摘号等) (连接出版时间、文摘号等) (连接出版时间、文摘号等) v每一个数据库提供的限制检索功能不同 维普:同义词、期刊范围、年限 43444546检索式v检索式就是对检索的基本要求的表达式, 是通过逻辑算符、位置算符、截词算符、 优先算符等把表达主题概念的各检索

11、单元 组配连接起来成为既能表达主题内容,又 能为机器识别和执行的命令形式 v最简单的检索式可以是一个词、一个字母 、一个数字或符号47检索式举例v课题:“唐诗宋词研究”(维普) (任意字段=唐*诗)+(任意字段=宋*词)*核心 期刊*Year=2008-2008 v课题:“电子商务中的税法研究”(Ebsco ) KY(electronic w commerce OR e-commerce) AND tax w law)48第二讲 信息检索策略(2)v信息及其类型 v信息检索策略 -检索工具/检索系统 -检索方法 -检索途径 -检索技术 -检索策略*49信息检索策略v为了满足自己的信息需求,学术

12、研究人员试图充 分而准确地表达认识到的信息需求,于是,产生 了检索提问(Request) v所谓检索策略,就是在分析检索提问的基础上, 确定检索的用词,并明确检索词之间的逻辑关系 、需检索的工具和系统,通过某些检索途径试检 ,并根据得到的反馈进行调整,使检索结果体现 用户目标的整个计划过程 v检索提问表达式(Query,即检索式),其实质是检 索策略的一种直观表达形式 v信息检索的过程是信息需求集合中的构成元素之 一检索提问表达式与信息集合的匹配过程50人们也许能描述自己就某一问题知道 些什么,却难以描述还应知道什么。 描述知识状态固有的困难,使提交给 信息检索系统的检索式相对于知识异 常状态

13、或信息需求只是近似和不完美 的。英国情报学家NJBelkin51联机检索策略的三种类型v 积木型:把用户的检索请求或检索课题剖析成若干个不同的概念面, 先分别对这几个概念面进行检索,并在每个概念面中尽可能和多地的 列举相关词、同义词、近义词,并用布尔算符连接成一个总检索公式 ,类似把各个积木块拼成图案 能提供比较明确的检索逻辑过程,容易理解和执行,还可部分或 全部地用作保留检索 v 检索结果珠形增长:从已知的关于检索课题的少数几个专指词开始检 索,以便至少检出一篇命中文献或一条相关信息,然后审阅这批文献 或信息条目,从中选出一些新的相关检索词,补充到检索式中。这些 词加入到检索式之后,就能查出

14、其他新的命中结果,不断重复上述过 程,直到找不到其他适合包含于检索式的附加词为止,或者已经得到 了数量适宜的命中结果 具有很强的人机交互性,可以使检索式以比较生动的方式生成并 得到不断丰富 v 逐次分馏型:先确定一个相当大的、范围较广的检索初始对象集合, 然后提高检索的专指度,得到一个较小的命中结果集合;继续提高检 索式的专指度,一步一步缩小命中结果集合,直到得到数量适宜、用 户满意的结果 逐次分馏策略的特点使检索操作比较主动,漏检较少52举例:检索结果珠形增长检索策略例:论童年经验对川端康成文学创作的影响v 积木型一篇重要切题文献:论川端康成的童年经验对其小说创 作的影响 检索评价:文献太少

15、,需扩检 改善检索策略减少不必要的词汇:童年 川端增加 文献:川端康成的少女情结 改善检索策略增加检索词:所谓童年经验,“是指一个 人在童年(包括从幼年到少年) 的生活中所获得的心理体验 的总和,包括儿童时的各种感受、印象、记忆、情感、知识 、意志等。” (【1】 童庆炳,程正民. 文艺心理学教程 M . 北京:高等教育出版社, 2001.)这里的童年经验绝 不等同于单纯的童年经历,而是指经历后有所收获和让人回 味的那部分内容,更确切的叫法应该是“童年体验”:幼年 少年 童年 儿童 川端增加文献:川端作品的儿童形象 改善检索策略改变检索字段(题名-摘要) 增加文 献:余华与川端康成比较研究 5

16、3例:论童年经验对川端康成文学创作的影响检索结果珠形增长从相关文献论川端康成的童年经验 对其小说创作的影响开始,不断扩大检索结果,人工 选取相关文献: 文艺心理学教程(来自参考文献) 论川端康成的物哀与幽玄以 伊豆的舞女 为例(来自作者 检索) 以下来自关键词检索:川端康成 童年经验 孤儿根性 缺失性经验 论创伤性体验对川端康成创作的影响 试论川端康成传统美学思想之形成原因 何乃英(重要研究者):川端康成美学观的特点及其根源J. 外国 文学研究, 1989,(01))(具体论述了其孤儿遭遇、没落家世等对其 美学观的影响) 蒋茂柏. 论川端康成的“悲美”D. 华中师范大学, 2006 . (其论文的第三部分为:悲美之心理根源,具体论述了他的“悲美”之 来源:孤儿情结、女性情结、死

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号