第三讲基础知识信息检索语言与技术

上传人:人*** 文档编号:578273588 上传时间:2024-08-23 格式:PPT 页数:43 大小:297.02KB
返回 下载 相关 举报
第三讲基础知识信息检索语言与技术_第1页
第1页 / 共43页
第三讲基础知识信息检索语言与技术_第2页
第2页 / 共43页
第三讲基础知识信息检索语言与技术_第3页
第3页 / 共43页
第三讲基础知识信息检索语言与技术_第4页
第4页 / 共43页
第三讲基础知识信息检索语言与技术_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《第三讲基础知识信息检索语言与技术》由会员分享,可在线阅读,更多相关《第三讲基础知识信息检索语言与技术(43页珍藏版)》请在金锄头文库上搜索。

1、第三讲:基础知识第三讲:基础知识-信息检索语言与技术信息检索语言与技术王建涛120072007第二讲回顾:小结第二讲回顾:小结NO3信息源的三大划分标准:载体形式、处理级别、编辑出版形式。其中后两种是极其重要的。不同的需求选择不同的信息源。哪些信息源是你撰写学术论文必须的网络资源和数据库作为涉及到各种类型信息资源。根据“信息源划分示意图”理解不同信息源划分之间的关系。根据“信息处理级别示意图”理解不同出版形式的信息源之间的关系。220072007第二讲回顾:小结第二讲回顾:小结NO4检索与查找的区别信息检索的含义、原理、类型、意义信息检索工具、方法、步骤信息检索类型划分示意图能通过“信息检索原

2、理图”理解信息检索原理能够借助“信息检索步骤示意图”理解并记忆信息检索五步骤320072007第二讲作业讲评第二讲作业讲评认识和选择信息源4200720071 信息检索语言信息检索语言信息检索语言=信息组织与存储的方法或规则5200720071 .1 什么是信息检索语言什么是信息检索语言回顾“信息检索原理图”,作为信息检索的桥梁信息检索语言含义:是根据信息检索系统存储和检索的需要而编制的是根据信息检索系统存储和检索的需要而编制的人工语言人工语言。语言词汇语法信息检索语言的词汇信息检索语言的词汇:分类号、检索词、代码信息检索语言的语法信息检索语言的语法:如何正确描述记录和有效地检索记录的一整套规

3、则规则。6200720071.2 信息检索语言类型示意图信息检索语言类型示意图信息检索语言信息检索语言信息检索语言信息检索语言描写文献外部特征外部特征描写文献内容特征内容特征分分类类语言语言体系分类语言体系分类语言组配分类语言混合分类语言题名语言著者语言号码语言主主题题语言语言单元词语言标题词语言关键词语言关键词语言叙词语言文献信息分类文献信息分类网络信息分类网络信息分类数据库信息分类数据库信息分类7200720071.3.1 文献信息分类语言文献信息分类语言国内国内国内国内中国图书馆分类法中图法中国科学院图书馆图书分类法科图法中国人民大学图书馆图书分类法人大法中国图书分类法台湾赖永祥编订国外

4、国外国外国外杜威十进分类法DDC国会图书馆分类法LCC820072007中图法中图法等级分类体系等级分类体系H1H2H3R1H11 H12 H13 H14 H121H122H123H124H111H112H113等级体系分类法上位类下位类920072007中图法中图法结构示意图结构示意图A 马克思主义、列宁主义 毛泽东思想、 邓小平理论B 哲学、宗教C 社会科学总论D 政治、法律E 军事F 经济G 文化、科学、教育、体育H 语言、文字I 文学J 艺术K 历史、地理N 自然科学总论O 数理科学和化学P 天文学、地球科学Q 生物科学R 医药、卫生S 农业科学T 工业技术U 交通运输V 航空、航天X

5、 环境科学、安全科学Z 综合性图书U1 综合运输U2 铁路运输U4 公路运输U6 水路运输U8 航空运输U41 道路工程U44 桥涵工程U45 隧道工程U46 汽车工程U48 其他道路 运输工具U49 交通工程与公路 运输技术管理U441 结构原理、结构力学U442 勘测、设计与计算U443 桥梁构造U444 桥梁建筑材料U445 桥梁施工U446 桥梁试验观测与检定U447 桥梁安全与事故U448 各种桥型U449 涵洞工程 基本大类基本大类 简表简表 详表详表1020072007中国科学院图书馆图书分类法简表(第三版)中国科学院图书馆图书分类法简表(第三版)00 00 马克思列宁主义毛泽马

6、克思列宁主义毛泽马克思列宁主义毛泽马克思列宁主义毛泽东思想东思想东思想东思想 10 10 哲学哲学哲学哲学20 20 社会科学(总论)社会科学(总论)社会科学(总论)社会科学(总论)21历史、历史学27经济、经济学31政治、社会生活34法律、法学36军事、军事学37文化、科学、教育、体育41语言、文字学42文学48艺术49无神论、宗教学50 50 自然科学(总论)自然科学(总论)自然科学(总论)自然科学(总论)51数学52力学53物理学54化学55天文学56地球科学(地学)58生物科学61医药、卫生65农业科学66农作物67园艺68林业、林业科学71工程技术72能源学、动力工程73电技术、电子

7、技术74矿业工程75金属学(物理冶金)76冶金学77金属工艺、金属加工78机械工程、机器制造81化学83食品工业85轻工业、手工业及生活供应技术86土木建筑工程87运输工程90 90 综合性图书综合性图书综合性图书综合性图书1120072007人大法简表人大法简表1.马克思主义、列宁主义、马克思主义、列宁主义、毛泽东思想毛泽东思想2.哲学哲学3.社会科学、政治社会科学、政治4.经济5.军事6.法律7.文化、教育、科学、体育8.艺术9.语言、文字10.文学11.历史12.地理13.自然科学自然科学14.医药卫生15.工程技术16.农业科学技术17.综合参考综合参考1220072007中国图书分类

8、法中国图书分类法(台湾台湾)000总论100哲学200宗教300自然科学400应用科学600历史、地理700历史、地理800语文900美术310数学320天文330物理340化学350地质360生物、博物370植物380动物390人类学410医学420家政430农业440工程450矿冶460化学工业470制造480商业490商学441土木工程442道路工程443水利工程444船舶工程445市政工程446机械工程447陆空交通448电气工程449核子工程1320072007杜威十进分类法杜威十进分类法(DDC)000 总论100 哲学 200 宗教 300 社会科学 400 语言 500 自然科

9、学600 应用科学 700 艺术 800 文学 900 历史、地理510 数学 520 天文学530 物理学540 化学550 地球科学560 古生物学570 生命科学 580 植物学 590 动物学621 应用物理学 622 采矿 623 军事及航海工程 624 土木工程 625 道路工程 627 水力工程 628 卫生及市政工程 629 其它工程 610 医学 620 工程与应用科学 630 农业 640 家政650 管理科学660 化学工业670 制造业680 特种制造业690 建筑 1420072007美国国会图书馆分类法美国国会图书馆分类法 (LCC)A 综合性类目 B 哲学、宗教

10、C 历史辅助科学 D 历史与地方志(美洲以外)EF 美洲历史与地方志 G 地理学、人类学H 社会科学J 政治学K 法律 L 教育 M 音乐 N 艺术 P 语言、文字学 Q 自然科学 R 医学S 农业、矿业T 工业技术U 军事科学V 海军Z 目录学、图书馆学QA 数学 QB 天文学 QC物理学 QD 化学 QE 地质学 TA 工程总论 TC 水力工程 TD 卫生工程和市政工程 TF 铁道工程和运输 TG 桥梁工程 TH 建筑工程 15200720071.3.2 网络信息分类网络信息分类很多情况下并不很清楚自己的信息需求,或者无法清楚表达信息需要,需要通过类目浏览搜索引擎【目录专题网站】googl

11、e网页目录搜狗目录学科信息门户http:/ 数据库信息分类数据库信息分类如中国期刊全文库1720072007小结小结NO5文献信息分类特点文献信息分类特点方便文献信息的排架,便于索取;类目的结构严谨,逻辑性强;适合学术信息资源的组织。网络信息分类特点网络信息分类特点根据网络信息的存在状况和当前上网用户的特点来编制的,科学性、系统性稍差;适合大众信息资源的组织。数据库信息分类特点结合文献信息分类和网络信息分类的优点方便浏览和检索18200720071.4 主题语言主题语言主题:论述的对象和研究的问题主题语言:以文献信息内容特征和科学概念的词语为检索标识,并按字顺组织起来的一种检索语言。19200

12、720071.4.1 标题词语言标题词语言标题词:从自然语言中选取并经过规范化处理的、表示事物概念的的词、词组或短语。代表EI中工程主题词表(简称SHE)电脑-见(see)-计算机局域网-参见(seealso)-计算机网络20200720071.4.2 关键词语言关键词语言所谓关键词是指那些出现在文献的标题(篇名、章节名)以至摘要、正文中,对表达文献主题内容主题内容主题内容主题内容具有实质意义的语词,亦即对揭示和描述文献主题内容来说是重要的、带关键性的(可作为检索“入口”的)那些词语。关键词基本上不作规范化处理。例如,“国际联机检索概论”中的“国际联机”、“联机”、“检索”都是能描述这篇文献的

13、主题的,可以作为检索词。概括地说,关键词法就是将文献原来所用的,能描述其主题概念的那些具有关键性的词抽出,不加规范或只作极少量的规范化处理,按字顺排列,以提供检索途径的方法。21200720071.4.3 叙词(主题)词语言叙词(主题)词语言叙词是指一些以概念为基础的,经过规范化的,具有组配功能并可以显示词间关系和动态性的词或词组。如:汉语主题词表、机械工程主题词表http:/ 计算机信息检索技术计算机信息检索技术机检回忆“信息检索原理图”见第二讲PPT50信息检索系统=硬件+软件+数据库计算机信息检索的实质就是由计算机将输入的检索策略与系统中存储的文献特征标识及其逻辑组配关系进行类比、匹配的

14、过程,需要人机协同作用来完成。25200720072.1 计算机信息检索的类型计算机信息检索的类型计计计计算算算算机机机机信信信信息息息息检检检检索系统的类型索系统的类型索系统的类型索系统的类型检索系统存储的内容文献信息检索系统事实信息检索系统数值信息检索系统图像信息检索系统多媒体信息检索系统检索系统工作方式脱机信息检索系统(20世纪5060年代)联机信息检索系统(20世纪70年代光盘信息检索系统(20世纪80年代网络信息检索系统(20世纪90年代26200720072.2 计算机信息检索技术计算机信息检索技术计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。由于信息检索提问式

15、是用户需求与信息集合之间匹配的依据,所以信息检索技术的实质是信息检索提问式的构造所以信息检索技术的实质是信息检索提问式的构造技术。技术。目前,计算机信息检索技术已经从基本的布尔逻辑检索布尔逻辑检索、截词检索截词检索、邻近检索邻近检索、限制检索限制检索、短语检索短语检索、字段检索字段检索发展为高级的加权检索、自然语言检索、模糊检索、概念检索和相关检索等多种技术并存。27200720072.2.1 布尔逻辑检索布尔逻辑检索布尔逻辑组配是现行计算机检索的基本技术,主要通过“与(and,*)”、“或(or,+)”、“非(not,-)”将检索词联络起来。AND*&AND*&空格空格 AandB逻辑与。A

16、和B都为真时,结果才为真,即:A*B,逻辑含义用图表示是:2820072007OR+|OR+|AorB逻辑或。A或B中只要有一个为真时,结果就为真,即:A+BNOT-!NOT-!AnotB逻辑非。A为真、B为假时,结果才为真,即:A-B2920072007布尔逻辑运算符的运算次序布尔逻辑运算符的运算次序括号优先与计算机编程中一样(AORB)ANDCNOTD不同的系统次序有差别,但总的来说一般次序为:NOTANDOR例A:查找有关信息检索的非英文文献信息information检索retrieval英文english(信息and检索)not英文(informationandretriever)no

17、tenglish3020072007分析实例:分析实例:上海零售业的现状与发展趋势上海零售业的现状与发展趋势上海上海 零售业零售业 现状现状 发展趋势发展趋势上海上海 and 零售业零售业 and (现状现状 or 发展趋势发展趋势)31200720072.2.2 截词检索截词检索截词包括后截、中截、前截等。用?作为截词符截词包括后截、中截、前截等。用?作为截词符(有些有些系统用系统用*),主要包括下列情形:,主要包括下列情形:截词符截词符?中截一字符,后截断中截一字符,后截断n n个字符个字符如wom?n可以检索出:woman,women如 coumput?可以检索出Compute,Comp

18、uter,Computing,computable3220072007? 后、中截二字符后、中截二字符如:transplant?可以检索出:transplant、transplanted、transplanter?后、中截三字符后、中截三字符如: comput?可以检索出:compute;computer;computing3320072007通配符,无限截断 % ?*后方一致(前截断)后方一致(前截断):“%国庆”将检索出所有字段为张国庆、欧阳国庆、国庆等的记录。前方一致(后截断)前方一致(后截断) :如:“热电材料%”将检索出热电材料梯度化、热电材料及其梯度化等的记录。3420072007

19、2.2.3 邻近检索邻近检索位置算符位置算符(W)with,(nW)nwith表示检索算符两侧的词不可以不可以颠倒顺序,n表示两个词中间可以插入=n个的词(如:aninbyofthe)如:control(1w)system可以检索出“controlsystem”“controlinsystem”等的信息。3520072007位置算符位置算符(N)near,(nN)nnear表示检索算符两侧的词可以可以颠倒顺序,n表示两个词中间可以插入=n个的词(如:aninbyofthe)如:controlsystem可以检索出“controlsystem”“systemcontrol”等的信息。362007

20、2007字段算符字段算符(F)(L)(F)-inthesamefield表示检索算符两侧的词必须同时出现在记录的同一字段内。(L)-link表示检索算符两侧的词必须在数据库界定的统一规范字段内。且有一定的从属关系,可以用来链接主标题词和副标题词。3720072007句子位置算符句子位置算符(S)-inthesame subfield orsameparagraph表示检索算符两侧的词只要在同一个子字段(文摘中的句子)或全文数据库的一个段落中出现就是匹配。这些算符可以一起使用这些算符可以一起使用,顺序为顺序为(W) (S)(F) 。实践上这些算符都是扩大检索范围。实践上这些算符都是扩大检索范围。

21、38200720072.2.4 限制检索限制检索针对特定年代、特定类别、特定检索点等作限制,包括前缀限制符和后缀限制符。前缀限制符例如:前缀限制符例如:AU= 限查特定作者限查特定作者JN= 限查特定刊名限查特定刊名 LA= 限查特定语种限查特定语种PN= 限查特定专利号限查特定专利号PY= 限查特定年代限查特定年代3920072007如在谷歌和百度搜索引擎中的检索特定的文献类型:“报告filetype:pdf”检索指定网址内的信息:“报告site:”以后会看到一些数据库通常都有年代/类型等的选择40200720072.2.5 网络检索网络检索短语检索(半角双引号)自动纠错检索(如:李熬,你是

22、不是要检索李敖)自动转换检索(如:汉语拼音转换成文字)自然语言检索概念检索(同义词/近义词/狭义词,如搜索引擎Excite)相关检索41200720072.2.6 其它检索的表述其它检索的表述二次检索/在结果内检索精确检索模糊检索跨库检索/一站式检索扩展检索(类似搜索引擎的概念检索)一般检索/高级检索/专家检索/命令检索还有什么检索?4220072007小结小结NO7计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。布尔逻辑检索布尔逻辑检索、截词检索截词检索、邻近检索邻近检索、短语检索短语检索、字段字段检索检索网络信息检索网络信息检索几乎所有的检索系统都有布尔逻辑检索、截词检索(模糊检索)和限制检索,而不同的检索系统又会有一些特殊的检索技术和功能。43

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号