第二章计算机文献检索策略

上传人:人*** 文档编号:578522400 上传时间:2024-08-24 格式:PPT 页数:65 大小:1.10MB
返回 下载 相关 举报
第二章计算机文献检索策略_第1页
第1页 / 共65页
第二章计算机文献检索策略_第2页
第2页 / 共65页
第二章计算机文献检索策略_第3页
第3页 / 共65页
第二章计算机文献检索策略_第4页
第4页 / 共65页
第二章计算机文献检索策略_第5页
第5页 / 共65页
点击查看更多>>
资源描述

《第二章计算机文献检索策略》由会员分享,可在线阅读,更多相关《第二章计算机文献检索策略(65页珍藏版)》请在金锄头文库上搜索。

1、第二节第二节 计算机文献检索策略计算机文献检索策略n计算机文献信息检索包含计算机文献信息检索包含制定检索表达式、制定检索表达式、制定合理的检索策略、检索策略的调整制定合理的检索策略、检索策略的调整三三个过程个过程n一、检索表达式及构成要素一、检索表达式及构成要素n二、计算机检索策略的制定二、计算机检索策略的制定n三、调整计算机检索策略三、调整计算机检索策略n检索表达式的基本含义检索表达式的基本含义:检索表达式是一:检索表达式是一个既能反映检索课题内容、又能为计算机个既能反映检索课题内容、又能为计算机识别的式子,是进行计算机文献信息检索识别的式子,是进行计算机文献信息检索的依据的依据n它主要是运

2、用各种逻运算符号、逻辑位置它主要是运用各种逻运算符号、逻辑位置符号及逻辑限制符号,把检索词连接组配符号及逻辑限制符号,把检索词连接组配起来,确定检索词之间的关系,准确表达起来,确定检索词之间的关系,准确表达检索课题的内容检索课题的内容n构成检索表达式的基本要素构成检索表达式的基本要素n(一)检索词(一)检索词n(二)运算符(二)运算符n检索词检索词:表达检索课题主题概念的名词术:表达检索课题主题概念的名词术语,包括叙词和自由词。叙词是规范词,语,包括叙词和自由词。叙词是规范词,大型数据库都有自己专用的词表,检索者大型数据库都有自己专用的词表,检索者可以从选择合适的词进行检索。可以从选择合适的词

3、进行检索。n关键词关键词:是未经过规范化的人工语言,往:是未经过规范化的人工语言,往往是各学科通用的专业名词术语、惯用语往是各学科通用的专业名词术语、惯用语及新出现的专有名词,所以在检索时应从及新出现的专有名词,所以在检索时应从有关专业文献或专业词典中选取关键词。有关专业文献或专业词典中选取关键词。n构成检索表达式的基本要素构成检索表达式的基本要素n(一)检索词(一)检索词n(二)运算符(二)运算符n n1.布尔逻辑算符布尔逻辑算符n n常用的布尔逻辑算符有三种,分别是逻辑常用的布尔逻辑算符有三种,分别是逻辑或或OR,逻辑与,逻辑与AND,逻辑非,逻辑非NOT。下面分。下面分别简释它们各自的含

4、义与用法。别简释它们各自的含义与用法。n n(1)逻辑或)逻辑或“OR”n n逻辑或逻辑或“OR”可以扩大信息的检索范围,可以扩大信息的检索范围,使用它相当于增加检索词主题的同义词与使用它相当于增加检索词主题的同义词与近义词,能提高检索的查全率。近义词,能提高检索的查全率。n n(2)逻辑与)逻辑与“AND”n n逻辑与逻辑与“AND”可以缩小信息的检索范围,可以缩小信息的检索范围,提高检索的查准率。提高检索的查准率。 n n(3)逻辑非)逻辑非“NOT”n n逻辑非逻辑非“NOT”可以用来排除不希望出现的可以用来排除不希望出现的检索词,它与逻辑与检索词,它与逻辑与“AND”的作用类似,的作用

5、类似,能够缩小命中信息的范围,提高检索的查能够缩小命中信息的范围,提高检索的查准率。准率。新浪的使用(新浪的使用(http:/ n2邻近检索邻近检索n n位置检索也叫全文检索、邻近检索。所谓位置检索也叫全文检索、邻近检索。所谓全文检索,就是利用记录中的自然语言进全文检索,就是利用记录中的自然语言进行检索,词与词之间的逻辑关系用位置算行检索,词与词之间的逻辑关系用位置算符组配,对检索词之间的相对位置进行限符组配,对检索词之间的相对位置进行限制。制。n n这是一种可以不依赖主题词表而直接使用这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检索自由词进行检索的技术方法。不同的检索

6、系统其位置算符的表示方法不尽相同,美系统其位置算符的表示方法不尽相同,美国国DIALOG 检索系统的位置算符的用法意检索系统的位置算符的用法意义如下:义如下:n n(1)(W)Withn n(W)表示该算符两侧的检索词相邻,且两者表示该算符两侧的检索词相邻,且两者之间只允许只有一个空格或标点符号,不之间只允许只有一个空格或标点符号,不允许有任何字母或词,顺序不能颠倒。允许有任何字母或词,顺序不能颠倒。(W)也可以简写为也可以简写为( )。n n例如例如: Aircraft( )design 可检索出含有可检索出含有Aircraft design 的文献记录。的文献记录。n nComputer(

7、 )aided( )design 可检索出含有可检索出含有Computer aided design 的文献记录。的文献记录。n n(2) (nW)nWordsn n(nW)表示在此算符两侧的检索词之间最多表示在此算符两侧的检索词之间最多允许间隔允许间隔n 个词个词(实词或虚词实词或虚词),且两者的相,且两者的相 对位置不能颠倒。对位置不能颠倒。n n例如:例如:laser(1w)printer 可检出含有可检出含有laser printer 和和laser color printer 的文献记录。的文献记录。n n(3) (N)Nearn n(N)表示该算符两侧的检索词相邻,但两者表示该算符

8、两侧的检索词相邻,但两者的相对位置可以颠倒。的相对位置可以颠倒。n n例如:例如:computer(N)network 可检出含有可检出含有computer network、network computer 形形式的文献记录。式的文献记录。n n(4)(nN)nNearn n(nN)表示此算符两侧的检索词之间允许间表示此算符两侧的检索词之间允许间隔最多隔最多n 个词,且两者的顺序可以颠倒。个词,且两者的顺序可以颠倒。n n例如例如 computer(2N)system 可检出含有可检出含有computer system,computer code system,n ncomputer aide

9、d design system,system using modern computer 等形式的文献记录。等形式的文献记录。n n(5)(S)Subfieldn n(S)表示其两侧的检索词必须是在文献记录表示其两侧的检索词必须是在文献记录的同一子字段中,而不限定它们在该子字的同一子字段中,而不限定它们在该子字段中的相对次序和相对位置的距离。在文段中的相对次序和相对位置的距离。在文摘字段中,一个句子就是一个子字段。摘字段中,一个句子就是一个子字段。n n例如例如computer( )control(s)system 可检出文可检出文摘中含有摘中含有“This paper is concerne

10、d with an application of the computer control technique in a intelligent system for testing inner walls of pipes.”这样一句话的文献记这样一句话的文献记录。录。n n这样的文献记录也是可以被检索到的这样的文献记录也是可以被检索到的“Design of a Design of a System System for Data for Data Acquisition andAcquisition and Computer ControlComputer Control of a of

11、a Pulmonary PhysiologyPulmonary Physiology LabLab”n n(6)(F)Fieldn n(F)表示其两侧的检索词必须是在文献记录表示其两侧的检索词必须是在文献记录的同一字段中,而它们在该字段中的相对的同一字段中,而它们在该字段中的相对次序和相对位置的距离不限。次序和相对位置的距离不限。n n例如:例如:water( )pollution(F)control 表示在同表示在同一个字段中一个字段中(如篇名、文摘、叙词等如篇名、文摘、叙词等)同时同时含有含有water pollution 和和control 的文献记录的文献记录均可检索出来。均可检索出来

12、。n n3截词检索截词检索n n截词检索是计算机检索系统中应用非常普截词检索是计算机检索系统中应用非常普遍的一种技术。由于西文的构词特性,在遍的一种技术。由于西文的构词特性,在 检索中经常会遇到名词的单复数形式不一致;检索中经常会遇到名词的单复数形式不一致;同一个意思的词,英美拼法不一致;词干同一个意思的词,英美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出加上不同性质的前缀和后缀就可以派生出许多意义相近的词等等。许多意义相近的词等等。 n n所谓截词,就是指在检索词的适当位置截所谓截词,就是指在检索词的适当位置截断。不同的检索系统其截词检索的表示是断。不同的检索系统其截词检索的表示是不

13、同的。不同的。n n例如,美国例如,美国Dialog 系统用系统用“?”表示截词符。表示截词符。有以下截词方式:有以下截词方式:n n1) 后方截词后方截词n n后方截词,也称前方一致。它是将截词符后方截词,也称前方一致。它是将截词符放在一串字符的后面,用以表示以相同字放在一串字符的后面,用以表示以相同字符串开头,而结尾不同的所有词。符串开头,而结尾不同的所有词。n n后方截词又分为词尾的有限截断和词尾的后方截词又分为词尾的有限截断和词尾的无限截断两种情况。无限截断两种情况。n n(1)词尾的有限截断词尾的有限截断n n相同字符串后可能变化一个字符时,则在相同字符串后可能变化一个字符时,则在其

14、后使用一个其后使用一个“?”n n例如用例如用system? 可以查出可以查出sytem 和和systems 的的 文献。文献。n n相同字符串后可能变化两个以上字符时,相同字符串后可能变化两个以上字符时,则在其后连续使用若干个则在其后连续使用若干个“?”代替可能变代替可能变 化的字符。例如,化的字符。例如,?表示两个字符,表示两个字符,?表表示三个字符,以此类推。示三个字符,以此类推。n n(2)词尾的无限截断词尾的无限截断n n相同字符串后可能变化任何字符串时,则相同字符串后可能变化任何字符串时,则在其后使用一个在其后使用一个“*”。这种方法可以查找。这种方法可以查找出含有相同字符串的所有

15、检索词。出含有相同字符串的所有检索词。n n例如,例如, comput* 可查出可查出compute , computer ,computing,computation,computerisation 等等。等等。n n2) 中间截词中间截词n n中间截词又称中间屏蔽,中间截词又称中间屏蔽, 是一种用截词符是一种用截词符屏蔽词中不同字符的方法。屏蔽词中不同字符的方法。n n例如:例如:“ woman ” 和和“ women ” , 可用可用“ wom?n” 代替;代替; “ defence ” 和和“ defense ” 可用可用“defen?e”代替。代替。n n截词符具有截词符具有“OR”

16、运算符的功能,能够扩运算符的功能,能够扩大检索范围,而且减少了输入检索词的时大检索范围,而且减少了输入检索词的时 间,节约了机时。间,节约了机时。n n4字段限制检索字段限制检索n n1)检索系统中的限制检索)检索系统中的限制检索n n在检索系统中,使用缩小和限定检索范围在检索系统中,使用缩小和限定检索范围的方法称为限制检索。限定检索条件多种的方法称为限制检索。限定检索条件多种多样,主要和常用的是字段限制。多样,主要和常用的是字段限制。n n通常数据库中可供检索的字段分为主题字通常数据库中可供检索的字段分为主题字段和非主题字段。其中,主题字段如题名段和非主题字段。其中,主题字段如题名(Titl

17、e)、叙词()、叙词(Descriptor)、标识词)、标识词(Identifier)、文摘()、文摘(Abstract)等,非主)等,非主题字段如作者(题字段如作者(Author)、文献类型)、文献类型(Document Type)、语种()、语种(Language)、)、出版年份(出版年份(Publication Year)等。)等。n n2)搜索引擎中的限制检索)搜索引擎中的限制检索n n搜索引擎中的字段检索多表现为前缀符限搜索引擎中的字段检索多表现为前缀符限制形式。制形式。n n其中,表示内容特征的主题字段有其中,表示内容特征的主题字段有Title,Keywords,Subject,S

18、ummary等,表示外等,表示外部特征的非主题字段限制有部特征的非主题字段限制有image,text等。等。 n n此外,搜索引擎还提供了带有典型网络检此外,搜索引擎还提供了带有典型网络检索特征的字段限制类型,如主机名限制索特征的字段限制类型,如主机名限制(host),),URL限制(限制(url),),E-mail限制限制(from),新闻组限制(),新闻组限制(newsgroups),),Link限制(限制(link),网址限制(),网址限制(site)等。)等。这些字段限定了检索词在记录中出现的位这些字段限定了检索词在记录中出现的位置,用来控制检索结果的相关性。置,用来控制检索结果的相关

19、性。n n5短语检索短语检索n n短语用短语用“”表示,检索出与表示,检索出与“”内形式完内形式完全相同的短语,以提高检索的精度和准确全相同的短语,以提高检索的精度和准确度,因而也有人称之为度,因而也有人称之为“精确检索精确检索”(exact search)。)。n n6括号检索括号检索n n用于改变运算的先后次序,括号内的运算用于改变运算的先后次序,括号内的运算优先进行。优先进行。n n7自然语言检索自然语言检索n n即直接采用自然语言中的字、词、句进行即直接采用自然语言中的字、词、句进行提问式检索,同一般口语一样。如提问式检索,同一般口语一样。如“布什布什是谁?流星是什么?是谁?流星是什么

20、?”这种基于自然语言这种基于自然语言的检索方式又被称为的检索方式又被称为“智能检索智能检索”(intelligent search),特别适合不太熟),特别适合不太熟悉网络检索技术的人士使用。支持自然语悉网络检索技术的人士使用。支持自然语言检索的又中文的言检索的又中文的baidu,英文的,英文的google、AltaVista、Excite、Infoseek、HotBot、Ask Jeeves等。等。n n8多语种检索多语种检索n n提供多种语言的检索环境供用户选择,系提供多种语言的检索环境供用户选择,系统按用户选定的语种进行检索并反馈结果,统按用户选定的语种进行检索并反馈结果,支持多语种检索

21、的如中文天网,英文支持多语种检索的如中文天网,英文AltaVista等。等。n n9模糊检索模糊检索n n又称概念检索。当我们输入一个检索词时,又称概念检索。当我们输入一个检索词时,搜索引擎不仅反馈包括了该关键词的网址,搜索引擎不仅反馈包括了该关键词的网址,同时也发来与关键词意义相近的内容。同时也发来与关键词意义相近的内容。n n例如,我们查找例如,我们查找“查询查询”一词时,模糊检一词时,模糊检索会反馈来包含了索会反馈来包含了“查询查询”、“查找查找”、“查一查查一查”、“寻找寻找”、“搜索搜索”等内容等内容的网址。反馈网址的排列,一般是完全符的网址。反馈网址的排列,一般是完全符合关键词的在

22、最前边,其次是相近的。现合关键词的在最前边,其次是相近的。现在大多数搜索引擎都有这种功能,只是模在大多数搜索引擎都有这种功能,只是模糊的程度不同。糊的程度不同。n n10区分大小写的检索区分大小写的检索n n输入时,如果用户的检索式用小写字母表输入时,如果用户的检索式用小写字母表示,搜索工具既匹配大写又匹配小写,如示,搜索工具既匹配大写又匹配小写,如china,将检索出,将检索出china(瓷器),(瓷器),China(中国):但如果用大写字母表示,搜索(中国):但如果用大写字母表示,搜索工具认为用户指定了只要大写,就只会查工具认为用户指定了只要大写,就只会查找那些与用户键入的输入形式完全相同

23、的找那些与用户键入的输入形式完全相同的结果,如结果,如China,只检索出,只检索出China。n n以上十种检索方法中,自然语言检索、模以上十种检索方法中,自然语言检索、模糊检索、多语种检索和区分大小写的检索糊检索、多语种检索和区分大小写的检索是网络检索所特有的。是网络检索所特有的。n n在实际的检索中,往往将上述多种检索技在实际的检索中,往往将上述多种检索技术混合使用,如要查找标题中含有术混合使用,如要查找标题中含有“网络网络营销营销”的资料,可以利用布尔逻辑运算符的资料,可以利用布尔逻辑运算符AND、OR和截词检索、区分大小写检索,和截词检索、区分大小写检索,并将检索结果限制在题名字段:

24、并将检索结果限制在题名字段:ti:(:(Web OR Internet OR WWW) AND market*。n一、检索表达式及构成要素一、检索表达式及构成要素n二、二、计算机检索策略的制定计算机检索策略的制定n三、调整计算机检索策略三、调整计算机检索策略n计算机检索策略,又称计算机检索提问逻计算机检索策略,又称计算机检索提问逻辑,是对计算机检索的全面规划。辑,是对计算机检索的全面规划。n在操作上主要指检索系统和文献数据库的在操作上主要指检索系统和文献数据库的选择和检索表达式的编制。选择和检索表达式的编制。n1.分析检索课题,明确检索目的分析检索课题,明确检索目的n2.选择检索系统和文献数据

25、库选择检索系统和文献数据库n3.确定检索词及检索途径确定检索词及检索途径n4.制定检索表达式和检索顺序制定检索表达式和检索顺序n一、检索表达式及构成要素一、检索表达式及构成要素n二、计算机检索策略的制定二、计算机检索策略的制定n三、三、调整计算机检索策略调整计算机检索策略n调整策略之间,首先分析造成检索结果不调整策略之间,首先分析造成检索结果不理想的原因理想的原因n对于检索出文献数量较多的情况,应分析是对于检索出文献数量较多的情况,应分析是否可能是如下原因造成:否可能是如下原因造成:na选用了多个多义性的检索词选用了多个多义性的检索词nb 截词截得过短截词截得过短nc输入的检索词输入的检索词n

26、d应该使用应该使用“与与”(AND)却使用了)却使用了“或或”(OR)ne优先运算符优先运算符“()()”使用错误使用错误n对于检索出文献数量较少的情况,应分享对于检索出文献数量较少的情况,应分享是否是如下原因造成:是否是如下原因造成:na 检索词输入错误检索词输入错误nb 遗漏重要的同义词或隐含概念遗漏重要的同义词或隐含概念nc 检索词过于具体检索词过于具体nd 没有使用截词算符没有使用截词算符ne位置算符和字段算符号使用的过多位置算符和字段算符号使用的过多nf使用过多的使用过多的“与与”(AND)算符)算符n针对上述原因,如果属于需要扩大检索范针对上述原因,如果属于需要扩大检索范围,提高检

27、索结果检全率的,调整策略的围,提高检索结果检全率的,调整策略的方法有:方法有:na 减少减少“与(与(AND”算符,增加同义词用逻算符,增加同义词用逻辑或辑或“+”将他们连接连接起来将他们连接连接起来nb 在词干相同的词后使用截词符(?)在词干相同的词后使用截词符(?)nc去除已有的字段限制、位置符限制(或者去除已有的字段限制、位置符限制(或者改用限制程度较小的位置算符号)改用限制程度较小的位置算符号)n如果需要缩小检索范围,提高检准率,调如果需要缩小检索范围,提高检准率,调整策略的方法有:整策略的方法有:na 减少同义词或同族相关词减少同义词或同族相关词nb 增加限制概念,用逻辑与(增加限制概念,用逻辑与(AND)将他们)将他们连接起来连接起来nc使用字段限制,或者限制检索词在制定的使用字段限制,或者限制检索词在制定的基本字段中出现,限制检索结果的类型、基本字段中出现,限制检索结果的类型、语种、出版国家语种、出版国家nd 使用适当位置算符使用适当位置算符ne使用使用“逻辑非(逻辑非(NOT)”算符,排除无关算符,排除无关概念概念

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号