信息检索原理与技术.ppt

上传人:新** 文档编号:568478395 上传时间:2024-07-24 格式:PPT 页数:90 大小:1.80MB
返回 下载 相关 举报
信息检索原理与技术.ppt_第1页
第1页 / 共90页
信息检索原理与技术.ppt_第2页
第2页 / 共90页
信息检索原理与技术.ppt_第3页
第3页 / 共90页
信息检索原理与技术.ppt_第4页
第4页 / 共90页
信息检索原理与技术.ppt_第5页
第5页 / 共90页
点击查看更多>>
资源描述

《信息检索原理与技术.ppt》由会员分享,可在线阅读,更多相关《信息检索原理与技术.ppt(90页珍藏版)》请在金锄头文库上搜索。

1、第三章第三章 信息检索原理与技术信息检索原理与技术信息检索基本原理计算机检索数据库计算机信息检索技术计算机信息检索流程 12参考文献 的著录n同一文献在论著中被引用多次,在第一次出现时编号,并在正文标注处以上角标的形式标注引文页码。一般来说,一篇文献如果只被引用一次,页码在文末的参考文献表中著录;如果被引用多次,页码分别标注在文中引用的对应之处。n示例:运用相似的方法2194由此产生的结果2236n著者-出版年制n各篇文献的标注内容由著者姓氏与出版年构成,并置于“()”内。n如果只标注著者姓氏无法识别该人名时,可标注著者姓名。集体著者著述的文献标注机关团体名称。如果正文中已提及著者姓名,则其后

2、的圆括号内只须著录出版年。23参考文献 的著录n引用多著者文献时,对欧美著者只需标注第一个著者的姓,其后附“etal”;对中国著者应标注第一著者的姓名,其后留适当空隙附“等”字。n在参考文献表中著录同一著者在同一年出版的多篇文献时,出版年后用小写字母a,b,c,区别,并反映在文中的标注中。n同一文献在论著中被引用多次,引文页码放在“()”外的上角标处。n示例:(张等,2005a)15-17;张(2006)认为;(张等,2005a)101-105。34n著录(Description)各种出版类型的文献条目有其固定的书写格式,有正确的描述即著录(description),才能有正确的识别著录格式有

3、多种,一般应选择一种认定的标准。在总体上都有提名项、出处项等著录项目。以下若干样例以中文期刊论文参考文献著录格式为参照。参考文献 的著录45n图书专著的著录主要责任者. 题名M. 其他责任者(如编者、译者,供选择). 版本(第1版不写). 出版地:出版者,出版年:页码.1蒋有绪,郭泉水,马娟,等.中国森林群落分类及其群落学特征M.北京:科学出版史,1998:12,67-69.2昂温 G,昂温 P S.外国出版史M.陈生铮,译北京:中国书籍出版社,1988: 96-983王夫之宋论M刻本金陵:曾氏,1845(清同治四年)参考文献 的著录56n期刊的著录主要责任者题名J刊名,年,卷(期):起止页码

4、1廖昕高能低易损性发射药实验研J火炸药学报,2001,24(4):8-112Des Marais D J, Strauss H, Summons R E, et alCarbon isotope evidence for the stepwise oxidation of the Proterozoic environmentJ.Nature,1992,359:605-609参考文献 的著录67n会议论文集(或汇编)的著录主要责任者题名A来源文献主要责任者来源文献题名C或G出版地:出版者,出版年:起止页码1钟文发非线性规划在可燃毒物配置中的应用A赵玮运筹学的理论与应用:中国运筹学会第五届大会论

5、文集C.西安:西安电子科技大学出版社,1996:468-4712韩吉人.论职工教育的特点A中国职工教育研究会职工教育研究论文集G北京:人民教育出版社,1985:90-99参考文献 的著录78n学位论文的著录责任者题名D学位授予地:学位授予单位,学位授予年:页码1张志祥间断动力系统的随机扰动及其在守恒律方程中的应用D北京: 北京大学数学系,1998:21-232Calms R BInfrared spectroscopic studies on solid oxygenDBerkeley: Univ. of California, 1965参考文献 的著录89n专利的著录专利所有者专利题名P专利

6、国别:专利号,公告日期或公开日期1姜锡洲一种温热外敷药制备方案P中国:881056073,1989-07-26.2Tachibana R, Shimizu S, Kobayshi S, et alElectronic watermarking method and systemPUS: 6915001, 2002-04-25参考文献 的著录910n报纸的著录主要责任者题名N报纸名,出版日期(版次)1张田勤罪犯DNA库与生命伦理学计划N大众科技报,2000-11-12(7)参考文献 的著录1011n科技报告的著录主要责任者题名R出版地:出版者,出版年:页码1World Health Organi

7、zationFactors regulating the immune response: report of WHO Scientific GroupRGeneva:WHO,1970n标准的著录标准编号,标准名称S.1 中华人民共和国国家标准. 织物透湿量测试方法S. GB/T 12704 - 91.2 GBT16159-1996,汉语拼音正词法基本规则S参考文献 的著录1112n电子文献的著录对于数据库(database)、计算机程序(computer program)及电子公告 (electronic bulletin board)等电子文献类型的参考文献,以双字母作为标识:数据库DB,

8、计算机程序CP,电子公告EB。 非纸张型载体的电子文献作为参考文献时,需要在参考文献类型标识中同时标明其载体类型。载体类型也以双字母表示:磁带(magnetic tape)MT,磁盘(disk)DK,光盘(CD-ROM)CD,联机网络(online)OL。下列格式表示包括了文献载体类型的参考文献类型标识:参考文献 的著录1213n电子文献的著录参考文献 的著录1314n电子文献的著录主要责任者题名文献类型标志/文献载体标志电子文献的出处或可获得地址,发表或更新日期/引用日期1王明亮关于中国学术期刊标准化数据库系统工程的进展EB/OL.http:/www. 1998-08-16/1998-10

9、-04. 2万锦坤中国大学学报论文文摘(1983-1993)DB/CD北京:中国大百科全书出版社,1996.参考文献 的著录1415思考题自学:随书光盘资料的获得学习使用图书馆主页上的多媒体资源的下载服务作业:最近一个月丁家桥校区到馆的医药卫生类图书有哪些?做成ppt或word或现场演示,交代清楚步骤。15第一节第一节 信息检索基本原理信息检索基本原理什么是信息检索?16 广义:广义: 信息检索指将信息按一定的方式信息检索指将信息按一定的方式组织和存储组织和存储起来,并根据起来,并根据 信息用户的需要信息用户的需要查找查找出有关信息的过程和技术。出有关信息的过程和技术。 Information

10、 Storage and Retrieval 狭义狭义: 信息检索是指从信息集合中信息检索是指从信息集合中查找查找出所需要的信息的过程。出所需要的信息的过程。 Information Search1.1 1.1 信息检索的定义信息检索的定义第一节第一节 信息检索基本原理信息检索基本原理17 信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择, 是两者匹配(match)的过程。 一方面是用户的信息需求, 一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出(search, locate, hit) 相

11、关的信息。信息信息集合集合需求需求集合集合相关信息相关信息第一节第一节 信息检索基本原理信息检索基本原理18信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:Information NeedInformation Need信息需求信息需求Document ObjectsDocument Objects文献对象文献对象RepresentationRepresentation表述表述RepresentationRepresentation标引标引QueryQuery信息提问信息提问Indexed ObjectsIndexed Objects标引对象标引对象Co

12、mparisonComparison比较匹配比较匹配Evaluation/FeedbackEvaluation/Feedback评价评价/ /反馈反馈Retrieved ObjectsRetrieved Objects检出对象检出对象19 检索点(access point)是检索的出发点,常被称为“检索途径”(approach )。 常用的检索途径有: 1)分类检索 2)主题检索 3)作者检索 4)名称检索 5)号码检索 反映文献的外部特征 反映文献内部(信息内容)特征第一节第一节 信息检索基本原理信息检索基本原理201)分类检索(classification) 分类检索是从文献内容所属的学科

13、类别出发来检索文献,它依据的分类检索是从文献内容所属的学科类别出发来检索文献,它依据的是一个可参照的分类体系(是一个可参照的分类体系(classification systemclassification system)。)。 分类体系按文献内容特征的相互关系加以组织,并以一定的标记分类体系按文献内容特征的相互关系加以组织,并以一定的标记( (类号类号) )作排序工具,它能反映类目之间的内在联系,包括从属、并列、作排序工具,它能反映类目之间的内在联系,包括从属、并列、交替、相关等。交替、相关等。较权威的图书分类法有较权威的图书分类法有: : 国内国内:中国图书馆图书分类法(中图法)、中国科学院

14、图书馆图书 分类法(科图法)、中国人民大学图书馆分类法(人大法) 国外国外:杜威十进分类法(Dewey Decimal Classification,DDC) 国际十进分类法(Universal Decimal Classification,UDC) 美国国会图书馆分类法(Library of Congress Classification,LC)212)主题检索 主题(主题(subjectsubject)检索是从反映文献内容的有关主题检索是从反映文献内容的有关主题词出发来检索文献,主题是检索点,它对应文献主题概念。词出发来检索文献,主题是检索点,它对应文献主题概念。检索按主题词的音或形的字顺

15、进行,其方式如查字典、词检索按主题词的音或形的字顺进行,其方式如查字典、词典。主题词的合理选择与使用对检索结果的优劣直接相关。典。主题词的合理选择与使用对检索结果的优劣直接相关。 通用词表通用词表:汉语主题词表 专业词表专业词表:美国医学主题词表MeSH、中国中医药主题词表、建筑工业叙词表、数学汉语主题词表、耐火材料专业主题词表等。223)作者检索 作者(author)检索是从文献的作者姓名出发来检索其文献。 “作者”广义上还应包括:汇编者(compiler)、编者(editor)、主办者(sponsoring body)、译者(translator)等 此外,还有代表机构、单位的团体作者(c

16、orporate author),包括作者所在单位(authors affiliation)。234)名称检索 名称(title)检索点是从各种事物的名称出发来检索文献信息。 这些名称包括:书名、刊名、资料名、出版物名、出版社名、会议名、物质名称等等,也包括人名和机构名。检索的对象既包括对应的文献,也包括有关的信息、事项等。比如个人电话簿(white pages)或公司电话簿(yellow pages),查找的是号码信息。245)号码检索 号码包括文献的编号(number)、代码(code)等,它们是文献信息的一些特有的外部标识,号码检索点以号码特征来检索文献信息。号码多种多样,通常用数字、字

17、母或用它们结合的形式或以分段的方式来表示其各部分的含义。比如科技报告有报告号,还有其合同号、拨款号等,比如专利文献有专利号、入藏号、公司代码等;比如分类号也是号码(特殊的号码检索),等等。国际标准书号ISBN,国际标准刊号ISSN它们各自按号码顺序,或以数序、或以字序、或以混合序列检索。25其他检索点 由于文献加工的细化,计算机标引的介入,新型电子文献出现等情况,形成了更多的可检索点 比如:作者单位、基金项目、文献类型、参考文献、语种、出版年份、出版单位等检索点,它们提供了更多的检索途径。 26EI的检索实例271.5 信息检索的类型 手工检索(手检) 计算机检索(机检) 手工检索(manua

18、l retrieval)使用的多为印刷型或书本型检索(paper-based retrieval)工具,早些有检索卡片,现在使用最多的是检索刊物,它们定期地将最新收集到的信息、文献加以汇总、组织和报道。手检的技术要求不高,以人的劳动为本,由人来翻阅,由人来进行比较、选择,完成匹配。手检工具能提供的检索点十分有限,检索结果往往不尽人意。 技术手段:2829303132信息检索的类型 计算机检索(computer-based retrieval),它通过数据库系统来实现的。检索系统包括:计算机主机设备、外部存贮器、输入输出设备、终端设备、通信设备等硬件设施;需要控制、提供检索的软件系统,包括:通信

19、软件、操作系统、应用程序等,以实现对数据库的信息存取。检索过程是在人与机器的合作、协同下完成的,它们经常用实时的(real time)、交互的(interactive)的方式从计算机存贮的大量数据中自动分拣出用户所需要的信息。计算、比较、选择的匹配任务是由机器来执行的,而人则是整个检索方案的设计者和操纵者。33计算机检索的优势计算机检索明显优于手工检索,主要表现:u 检索的信息量大u 数据更新快u 检索功能强u 检索结果输出的多样性34信息检索的类型o当前许多经典的印刷型工具都有其对应的电子数据格式、数据库,印刷工具则成了电子数据加工输出的副产品,许多新生的数据库不再与印刷型工具有缘,仅有其电

20、子版本。计算机检索手工检索取代35第二节第二节 信息检索数据库(工具)信息检索数据库(工具)o检索工具(数据库)的功能 o检索工具(数据库)的分类o检索工具(数据库)的构成361、检索工具(数据库)的功能事实检索、目录检索、文摘索引检索,其关联关系如下图:事实检索、目录检索、文摘索引检索,其关联关系如下图: 事实检索目录检索文摘索引检索信息用户目录馆藏信息文献来源信息收藏点事实数值原(全)文holdingsource371)事实检索事实检索是对包括事实(fact)、数值(numeric data)与全文(full-text)的检索,提供原始信息,给出直接、确定性的答案。它回答的问题诸如: “我

21、国最近一年在SCI上被收录的文献量是多少?” “有哪些海外华人得过诺贝尔奖?” 工具: 字典、词典(dictionary) 百科全书(encyclopedia) 年鉴(annual, yearbook, almanac) 手册(handbook, manual) 名录(biography)和书目指南(directory)382)目录检索:)目录检索: 目录检索是间接的、相关性检索,给出来源文献线索,目录检索是间接的、相关性检索,给出来源文献线索,指引原始文献。指引原始文献。 按性质:登记书目(出版、馆藏情况)、科学通报书目等;按性质:登记书目(出版、馆藏情况)、科学通报书目等; 按所涉的学科范

22、围:综合书目、专科书目、专题书目等;按所涉的学科范围:综合书目、专科书目、专题书目等; 按所涉的时间范围:回溯书目、在版书目、新书书目等;按所涉的时间范围:回溯书目、在版书目、新书书目等; 按收录的文献类型:图书目录、报刊目录、来源目录等;按收录的文献类型:图书目录、报刊目录、来源目录等; 按所涉的地域:国家书目、联合目录和馆藏目录等;按所涉的地域:国家书目、联合目录和馆藏目录等; 按其媒体:卡片目录、书本目录、磁带目录和机读目录等。按其媒体:卡片目录、书本目录、磁带目录和机读目录等。393)文摘索引检索 文摘索引检索是一种参考型、相关性的检索,提供相关参考文献的线索,包括文献来源出处(sou

23、rce),也常带有文献的内容摘要,但不是文献原文。EI、SCI、INSPEC等 文摘索引检索是能揭示到文章、论文级(article-level)的检索,这些文章大量的是来自期刊及会议论文集。 按其报道的学科范围:综合性和专业性检索工具;按其报道的学科范围:综合性和专业性检索工具; 按其取材范围:多种出版物类型和单一出版物类型工具;按其取材范围:多种出版物类型和单一出版物类型工具; 按其著录方式:题录型和文摘型检索工具;按其著录方式:题录型和文摘型检索工具; 按其媒体:书本型、电子型检索工具等。按其媒体:书本型、电子型检索工具等。402、检索工具(数据库)的分类o国际上通常根据数据库内容将数据库

24、划分为三大类:n(1)参考数据库(Reference Database)n(2)源数据库(Source Database, 在欧洲也称数据银行:Data Bank)n(3)混合数据库(Mixed Database)o另一种划分数据库的实用方法是分为文献数据库与非文献数据库两大类,前者以书目数据库和全文数据库为主,后者以数值数据库和术语数据库为多。41n(1)参考数据库(Reference Database) 此类数据库信息一般不自足,用户从中获取信息源信息后还需进一步去查找原文。 书目数据库索引数据库文摘数据库图书馆目录数据库名录数据库产品数据库指南数据库 Next42n(2)源数据库(Sou

25、rce Database, 在欧洲也称数据银行:Data Bank) 此类数据库数据自足,用户一般不必再查其他信息源,即可满足需求。源数据库数值数据库图像数据库文本数值数据库术语数据库全文数据库 Next43n(3)混合数据库(Mixed Database):此类数据库兼具上两类数据库特点,如多媒体数据库(Multimedia Database)等。混合数据库多媒体数据库 443、检索工具(数据库)的构成o数据库n文档o若干个记录构成的信息集合称为文档。大型的数据库分割成若干文档。n记录o记录是构成数据库的完整的信息单元,每条记录描述了原始信息的外部特征和内部特征。n字段o组成记录的数据项目。

26、45数据库与检索系统o数据库与检索系统是两个不同的概念。o数据库是信息的集体体,是一种信息管理的方式。o检索系统是个软件。检索系统主要用于检索数据库。o一个检索系统可以容纳上百个数据库,可同时对上百个数据库进行检索。o一个数据库可依存于不同的检索系统。46第三节 计算机信息检索技术n计算机信息检索的定义 信息资源的计算机检索实质是利用计算机与远程通信技术来实现信息的采集、处理、存储、检索和传递等过程。这些信息包括声音、图像、文字和数据等一切内容。47第三节 计算机信息检索技术n计算机检索的历史和现状 起源于20世纪50年代的美国,主要经历了以下四个阶段: 1)脱机(单机)检索 2)联机检索 3

27、)网络检索 4)智能信息检索(未来)48计算机检索的历史和现状n脱机检索是用户与机器脱钩,不直接参与检索,不介入与机器的对话,检索以批处理(batch processing)的方式进行,如定题检索服务(SDI)。oSDISDI检索服务检索服务:把一批事先制定好的检索式存放在机器中,在收到最新文献后执行检索,并将检索结果定期送到用户手中,可长期跟踪某专题的研究。n联机检索指用户利用计算机终端设备,通过通讯线路,从信息中心的计算机(主机)数据库中检索出所需要的信息的过程,它是一种实时的在线检索,知名检索系统如Dialog、STN系统等。该检索检索范围广、检索速度快、检索功能强,但检索费用昂贵,检索

28、命令和方法较复杂。49计算机检索的历史和现状n网络检索可同时使用网上多个主机,甚至所有主机的某种资源而并不需要用户预先知道它们的具体地址。这就极大扩宽了其检索的空间和信息量,包括世界各地的各种文献信息资源及其指向的网络页面。但互联网信息庞杂,正式与非正式信息及其交流渠道共存,信息缺乏有效的组织管理,因此检索效果很难用一般意义上的查全、查准这些概念来衡量。n在前三个发展阶段的基础上,随着自然语言处理和信息组织技术的不断发展,计算机信息检索系统跨入一个新的阶段智能信息检索。自动分词、自动标引、自动分类、自动文摘、自动索引、自动翻译分类表主题词表Mark记录元数据Ontology(本体).50515

29、2第三节 计算机信息检索技术o初级检索技术nA. 逻辑运算逻辑运算nB. 截词检索截词检索nC. 位置检索位置检索nD. 检索字段控制检索字段控制53A. 逻辑运算逻辑运算(布尔算符)o用来表示两个检索词之间的逻辑关系o常用的有三种;逻辑与(and) 、逻辑或(or)和逻辑非(not)o这里用A和B分别代表两个检索词,它们的逻辑关系由下表和图说明。54A. 逻辑运算逻辑运算(布尔算符)o逻辑运算符的优先等级NOT AND ORo改变优先等级()将检索表达式的某一部分用括号括起来,表示命令计算机首先运算()中的提问式,而不是按照计算机系统默认的运算符优先级别进行运算。5556查询:2010 AN

30、D 世界杯 AND NOT 小组赛2010世界杯世界杯小组赛小组赛2010 AND 世界杯 AND NOT 小组赛布尔模型匹配的集合表示57课堂练习nq = 病毒 AND (计算机 OR 电脑)AND NOT医 nd1: 据报道,计算机病毒近日猖獗nd2: 小王虽然是学医的,但对研究电脑病毒也很感兴趣,最近发明了一种nd3: 计算机程序发现了爱滋病病毒的传播途径 哪些文档会被检索出来?58布尔检索的注意事项n不严格的话结果过多,而且很多不相关;n非常严格的话结果会很少,漏掉很多结果。59B. 截词检索o也称通配符, 用来对检索词(干)进行扩展。o作用是减少检索词的输入而保证相关检索概念的涵盖,

31、同时方便解决语言文字拼写方面的差异(如美式英语和英式英语),避免漏检。606162o截词符截词符 后截断,将截词符号放在一个字符串的右方,以表示后截断,将截词符号放在一个字符串的右方,以表示其右的有限或无限个字符不影响该字符串的检索。例其右的有限或无限个字符不影响该字符串的检索。例如:如: hyperthyr*可查到可查到hyperthyre、hyperthyreosis、hyperthyroid、hyperthyroidosis、hyperthyroidism等等。 hypertensi?可查到可查到hypertension、hypertensive。 涉及到词的单复数、作者、年代、同根词等

32、方面的检涉及到词的单复数、作者、年代、同根词等方面的检索时,选用后截断技术。索时,选用后截断技术。B. 截词检索63 前截断,将截词符号放在一个字符串的左方,前截断,将截词符号放在一个字符串的左方,以表示其左的有限或无限个字符不影响该字以表示其左的有限或无限个字符不影响该字符串的检索。例如:符串的检索。例如: *sighted,可查到可查到farsighted 与与nearsighted。 前截断只检索后缀相同的一类词,常用于检前截断只检索后缀相同的一类词,常用于检索化学化工文献与复合词较多的文献。索化学化工文献与复合词较多的文献。B. 截词检索64 中截断,将截词符号放在一个检索词的中间中截

33、断,将截词符号放在一个检索词的中间的一种截词方式。只允许有限截断,用于检的一种截词方式。只允许有限截断,用于检索词的单复数或英美式不同拚法。例如:索词的单复数或英美式不同拚法。例如: wom?n,可查到可查到Woman,Women。 defen?e ,可查到可查到defense,defence。B. 截词检索65C. 位置检索p位置算符(proximation operator),表示其连接的两个检索词之间的位置关系,常用的有(W), (nW), (N), (nN), (L), (S), (F)等。p目的是表达各个检索词之间的顺序和相对位置,以精确检索,并减少检索误差。p不同的系统采用的位置算

34、符不同,用法也不同。pDIALOG系统常用的位置算符共有四种:(W)-With 表示算符两侧的检索词(或检索项)之间不得有其它字词,而且顺序不能颠倒。66C. 位置检索(nW)-nWith(位置顺序隔词) 表示算符两侧的检索词(或检索项)之间允许插入n个实词或者虚词,但顺序不能颠倒。N(Near)(词位置紧连)表示算符两侧的检索词必须紧密相连,中间不插入其他字符。但两词次序可以颠倒。(nN)-nNear(隔词运算) 表示算符两侧的检索词(或检索项)之间允许插入n个单词,且两侧词序可变。67C. 位置检索引号“ ”当需要将两个或两个以上的单词作一个词组执行检索时,用引号将几个词引起来。检索结果与

35、用户输入形式完全相同的词组的检索方式。降低误检率,提高查准率。引号一般为半角英文形式。68D.检索字段控制o检索字段符是对检索词出现的字段范围进行限定,执行时,机器只对指定的字段进行检索,经常应用于检索结果的调整。o不同的系统使用的字段符不同,常用的检索字段符有:AU=作者 JN=刊名 TI=题目 AB文摘PY=年代 CS=机构名称DE=叙词 LA=语种 ID=自由词 CT=受控词 PN=专利号 PA专利 69D.检索字段控制p有的数据库限制符为“in”和“=”,例如:Hypertension in TI 表示高血压一词在题名字段Title中出现。PY2000 表示检索2000年前发表的文献记

36、录。p有的数据库限制符为“/”和“=”,例如:(minicomputer/DE OR personal computer/ID)AND PY=2002 表示查找2002年出版的关于微电脑或者个人电脑的文献,并要求“微电脑”一词在命中文献的叙词字段出现,“个人电脑”一词在命中文献的自由词字段出现。70菜单式菜单式71作者=钱伟长 and 单位=清华大学 and (题名=物理 or 摘要= 物理)命令式命令式72检索方式o检索系统一般提供了三种检索方式三种:n超文本、超媒体检索n菜单式检索n命令式信息检索 o为什么要提供三种给我们,都需要我们掌握吗?73超文本式、超媒体检索o在分类的基础上,通过文

37、字或多媒体与相关知识产生链接,从而达到检索目的的检索方式。o操作非常简单,人们只需学会使用鼠标和认识汉字即可使用。o主要用于浏览某类文献。o但是检索结果不够精确。查精率不高。o一般检索系统都提供了这种检索74菜单式检索o是一种操作方便,界面友好操作简便的检索方式。o用户只需输入检索词,根据菜单的指引,通过确定适当的选项和功能鍵便能完成检索。o菜单式检索是现阶段最受欢迎的检索方式。75命令式检索专业检索方式o需要输入检索式来进行检索。o甚至还需要输入一些系统不提供功能按钮的操作命令o命令式检索的优势:n检索式更能清晰地表达复杂的检索内容和要求。n检索过程明了,便与检索者判断检索是否满意。有利于掌

38、握检索过程。o检索课题较复杂,对检准率要求较高时,需要使用命令式检索方式。o一些大型的检索系统都使用命令检索方式。76第三节 计算机信息检索技术o高级检索技术n加权检索加权检索n自然语言检索自然语言检索n相关信息反馈检索相关信息反馈检索n模糊检索模糊检索n概念检索概念检索773-1 加权检索o加权检索,即在检索时,给某个检索词一定的权值,以表示其重要程度。o计算机检索时,首先在数据库中找到满足提问词的文献,然后对提问词加权,文献按匹配的检索词权数之和从大到小排列。设定检索阈值,当文献的权值大于阈值时,输出命中文献。78o 例如:W=计算机(1)情报检索(4)自动化(2)组合号包含的提问词权和数

39、计算机自动化情报检索17263544536271793-1 加权检索o加权检索的优点是可明确各检索词在检索中的重要程度,检索结果按照切题顺序排列,表达式简捷。o它的缺点是,加权法提问式含义不如逻辑式那么明显直观,而且在盲目地给出权数的情况下容易出现误检。803-2 自然语言检索o自然语言检索,指用户在检索时可输入自然语言表达的检索要求。 例如,用户输入检索提问:“please find for me some thing about automobile sale in New York state”,检索工具会按照提问检索出关于在纽约州(New York state)汽车销售(automob

40、ile sale)的信息。 这种检索的基本处理过程是:检索工具在收到用户提问后,首先利用一个禁用词表禁用词表从提问中剔除那些没有实质主题意义的词汇,然后将余下的词汇作为关键词关键词进行检索。例如,各种副词、介词、代词、常用请求词(please、help、would、may等)、检索提问词(find、search、locate、check、information、materials等)例如,纽约州(New York state)、汽车销售(automobile sale)813-2 自然语言检索o自然语言检索的效果取决于检索工具选择关键词的效率,而这方面仍然面临一些问题,如禁用词表的构成。o中文

41、分词的难题o切分歧义o新词识别ExampleExample82p切分歧义o“和服”? “化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。o“中将” ? 在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。o“拍卖” ? “乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了” ,Next83p新词识别 新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,机构名、地名、产品名、商标名、简称、省略语等。 Example: “王军虎去广州了”中,“王

42、军虎”是个词,在句子“王军虎头虎脑的”中,“王军虎”还能不能算词? 843-3 相关信息反馈检索o在检索过程中人们会发现某个结果非常符合自己需要,因此希望能进一步检索到与该结果类似的结果,这称之为相关信息反馈检索。o网络环境中,相关信息反馈检索由检索工具自动进行。 例如, Excite的“Search for more documents like this one”检索 Lycos的“More Like This”检索 google的“类似网页”检索,以及百度的“相关搜索”等。853-3 相关信息反馈检索o基本原理:是检索工具将用户所选定的结果网页中包含的关键词找出,通过它们在这个网页中出现

43、的频率和位置等来计算各自的相关度,然后选出相关度较高的词汇作为下一步检索的检索词。o但由于词汇选择只考虑了词汇出现的频率和位置,而没有考虑用户对各个词汇重要性的主观判断,所以其结果并不一定非常合适。863-4 模糊检索o模糊检索,指允许检索词和检索提问之间存在一定的差异,这种差异即“模糊”在检索中的含义。o模糊检索中所指的差异往往来自于用户在输入检索提问时的输入错误,如少键入一个字,打错一个字母等等。另一类差异来自某些词汇不同的拼写形式,例如,单复数,“catalog”和“catalogue”。这时检索工具应该能够检索到用正确词汇或其它变形形式标引的结果,而不是简单地告诉“输入错误”或“没有结果”。873-5 概念检索 o概念检索,是指当用户输入一个检索词后,检索工具不仅能检索出包含这个具体词汇的结果,还能检索出包含那些与该词汇同属一类概念的词汇的结果。 例如,检索“automobile”时能找出包含“automobile”、“car”、“truck”、“van”、“bus”等任一词汇的结果。 又如,在查找“公共交通”这一概念时,有关“公共汽车”或“地铁”的信息也能随之检得。 在此意义上,概念检索实现了受控检索语言的一部分功用,即考虑到了同义词、广义词和狭义词的使用。888990

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号