文档详情

文献信息检索基础知识基础知识

公****
实名认证
店铺
PPT
1.80MB
约79页
文档ID:584986048
文献信息检索基础知识基础知识_第1页
1/79

基础知识 一、信息、知识与文献的含义信息:客观事物存在方式及其运动规律、特点的外在表现信息属性:普遍性、客观性、中介性、无限性、传递性、时效性、依附性、共享性……. 知识:人类对客观事物的存在和运动规律的认识 一是知道是什么二是知道为什么三是知道怎样做四是知道谁有知识 19961996年,世界经济合作与发展组织在《以知识为基础的经济》报告中,将知识分为四类: 加工加工升华升华精炼精炼 系统系统组织组织 信信息息知知 识识 信信息息知知识识事物存在方式、运事物存在方式、运动状态外在表现动状态外在表现信息经过大脑信息经过大脑加工加工信息信息信息与知识关系 信信息息文献:记录有知识的一切载体文献内容记录符号载体材料记录方式 文献构成要素 二、文献信息源类型1.1.按文献信息的物质载体和记录形式划分u手写型文献u印刷型文献u缩微型文献u声像型文献u电子型文献 2.2.按文献信息的出版形式和内容划分u图书 u期刊 u科技报告u会议文献u专利文献u学位论文u标准文献u产品资料u政府出版物u技术档案 3 3、、按文献信息的加工程度划分按文献信息的加工程度划分u一次文献:作者以本人的研究成果为依据二创作或撰写的文献。

u二次文献:将大量分散的、物组织的一次文献,依一定的方法和原则进行浓缩、整序、加工、编辑后,组织成系统的便于管理和利用的文献u三次文献:在一、二次文献的基础上进行广泛深入的研究之后,通过汇集、综合、分析等深度加工而形成的文献 三、文献信息检索的类型 1.1.按文献信息检索对象划分u文献信息检索u数据信息检索 u事实信息检索 文献信息检索 以文献信息为检索对象,从文献信息存储集合中查找出特定文献的过程 文献信息检索是信息检索中最主要、最基本的形式 u范围—某一课题、某一作者、某一地域、某一机构、某一事物的有关文献;u工具—二次文献(检索工具或系统);u性质—“相关性”检索;u结果—文献的线索或原文 例:国内外转基因食品发展趋势研究 中国动物药产业发展方向方面的文献 食品安全研究有关文献 数据信息检索 以数据信息为检索对象,从数据信息存储集合中或从文献中包含的数据中查找某一数据信息的过程 u范围—数据图表、公式、图谱、市场行情、物质的物理与化学特性、物质的材料成份、设备的型号与规格、参数等;u工具—主要三次文献(参考工具书、数据型数据库);u性质—“确定性”检索;u结果—有、无、对、错。

例如:查找:例如:查找:20112011年吉林省玉米产年吉林省玉米产量(万吨)量(万吨) 事实信息检索 以事实信息为检索对象,从存储事实的信息集合中查出特定事实的检索过程 u范围—事物的基本概念、基本情况,事物发生的时间、地点、相关的事实与过程等;u工具—主要三次文献(参考工具书、事实型数据库);u性质—“确定性”检索;u结果—有、无、对、错 例:“转基因植物”的概念 吉林农业大学地址……………………….………………………. 参考工具书参考工具书u字、词(辞)典字、词(辞)典u百科全书百科全书u手册手册u年鉴、统计数据年鉴、统计数据u图谱图谱u年表年表u人名录、地名录、机构名录人名录、地名录、机构名录 三者的关系: 文献信息检索与数据信息检索、事实信息检索三者在信息检索过程中通常是相互配合、相辅相成的,检索时常常配合使用,从而检索出最适用文献 2.2.按文献信息检索方式划分u手工检索u计算机检索 3.3.按文献信息组织方式划分u全文检索u超文本检索u超媒体检索 四、文献信息检索工具(系统)类型u目录型目录型u题录型题录型u文摘型文摘型u全文型全文型 五、文献信息检索原理 通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索工具(系统),用户将提问标识与存储在检索工具(系统)中的文献特征标识进行大小同异比较,凡是两种标识相一致,或者文献特征的标识包含着检索提问标识,则表明所检文献切题,即从检索工具(系统)中输出。

文献信息检索原理示意图 六、文献信息检索语言u文献信息检索语言的概念 从自然语言中精选出来并加以规范化的一套词汇、符号,是概括信息内容特征或外在特征及其相互关系的概念标识体系 外表特征外表特征 题名、作者、 出版社、 号码等内容特征内容特征   分类、主题、代码等   u文献信息检索语言作用文献信息检索语言作用 文献信息检索语言是沟通文献信息存储文献信息检索语言是沟通文献信息存储与检索两个过程的桥梁在文献信息存储过与检索两个过程的桥梁在文献信息存储过程中,用它来描述文献信息的内容和外部特程中,用它来描述文献信息的内容和外部特征,从而形成检索标识;在检索过程中,用征,从而形成检索标识;在检索过程中,用它来描述检索提问,从而形成提问标识;当它来描述检索提问,从而形成提问标识;当提问标识与检索标识完全匹配或部分匹配时,提问标识与检索标识完全匹配或部分匹配时,结果即为命中文献结果即为命中文献 u文献信息检索语言类型 分类检索语言 按学科范畴及知识之间的关系列出类目,并用数字、字母符号对类目进行标识的一种语言体系,也称分类法。

《《中国图书馆分类法中国图书馆分类法》》2222个基本大类个基本大类::A A 马克思主义、列宁主义、马克思主义、列宁主义、 毛泽东思想、邓小平理论毛泽东思想、邓小平理论 B B 哲学、宗教哲学、宗教C C 社会科学总论社会科学总论D D 政治、法律政治、法律 E E 军事军事F F 经济经济G G 文化、科学、教育、体育文化、科学、教育、体育H H 语言、文字语言、文字I I 文学文学K K 历史、地理历史、地理 N N 自然科学总论自然科学总论O O 数理科学和化学数理科学和化学P P 天文学、地球科学天文学、地球科学Q Q 生物科学生物科学R R 医药、卫生医药、卫生S S 农业科学农业科学 T T 工业技术工业技术U U 交通运输交通运输V V 航空、航天航空、航天X X 环境科学、劳动保护科学环境科学、劳动保护科学Z Z 综合性图书综合性图书 《中国图书馆分类法》片断 学学科科分分类类按学科按学科“分类检索分类检索”实例实例 主题检索语言 将自然语言中的名词术语经将自然语言中的名词术语经过规范化处理后作为文献信息标过规范化处理后作为文献信息标识的一种主题法检索语言。

识的一种主题法检索语言 主题词:以规范化的词汇来表以规范化的词汇来表达文献信息内容的主题,这种词汇达文献信息内容的主题,这种词汇叫主题词叫主题词 主题词根据规范性、检索时要求主题词根据规范性、检索时要求不同可细分单元词、标题词、叙词不同可细分单元词、标题词、叙词等 自然语言自然语言主题词主题词酒精酒精乙醇乙醇土豆土豆马铃薯马铃薯伪钞鉴别伪钞鉴别验钞验钞杜鹃杜鹃杜鹃(花)杜鹃(花)杜鹃(鸟)杜鹃(鸟)世贸组织世贸组织世界贸易组织世界贸易组织 主题主题“主题检索主题检索”实例实例 u关键词语言 关键词是指出现在文献标题、文摘、正文中,对表征文献主题内容具有实质意义的语词,对揭示和描述文献主题内容是重要的、关键性的语词关键词选取一般由计算机自动抽取 引文语言 引文语言根据现期期刊或少量丛书中发表的文章(称引文文献)后面所附的参考文献(即被引文献)的著者(即被引著者)的姓名组织编排文献的 引文语言利用文献之间的引用与被引用关系,来表达文献之间的相互关系 表达文献外部特征的检索语言 主要是指文献的篇名(题目)、作者姓名、出版者、报告号、专利号等。

将不同的文献按照篇名、作者名称的字序进行排列,或者按照报告号、专利号的数序进行排列,所形成的以篇名、作者及号码的检索途径来满足用户需求的检索语言 八八、文献信息检索的基本方法1.1.常规法 根据文献的外部特征和内容特征,即以主题、分类、著者等为检索点,通过检索工具(系统)获取所需文献信息的一种检索方法 分为顺查法、倒查法和抽查三种 u顺查法:按着时间顺序,由远及近、从过去到现在利用检索工具(系统)逐年、逐卷地查找文献信息,直到满意为止的一种检索方法 u倒查法:又称为逆查法,与顺查法相反,按照文献信息检索要求的时间范围,由近到远、从现在到过去逆着时间的顺序利用检索工具(系统)查找文献信息的一种检索方法 u抽查法:一般是针对某学科发展特点和规律,抓住该学科发展较快、文献信息发表较多的高峰年代,抽出这段时间进行重点检索文献信息的一种方法 2.追溯法 又称为引文法、追踪法,利用文献末尾所附参考文献和注释为线索逐一地追溯查找原始文献的方法3.循环法 又称为综合法、交替法,它是把常用法和追溯法结合起来查找文献信息的方法循环法既要利用检索工具(系统)进行常规检索,又要利用文献后所附参考文献进行追溯检索,分期分段地交替使用这两种方法。

九、计算机信息检索技术 计算机检索技术主要指检索词的组配技术和检索表达式的构成规则 检索词包括主题词、关键词、名称、分类号、分子式、专利号及各种号码等 检索表达式简称为检索式,又称为检索提问式,主要是运用各种逻辑运算符号、位置逻辑算符、截词符及其它限制符号等,把检索词连接组配起来,确定检索词之间的关系,准确表达检索课题的内容它是一个既能反映检索课题内容、又能为计算机识别的算式,是进行计算机检索的依据 u布尔逻辑检索技术布尔逻辑检索技术 采用布尔代数中的布尔关系运算符来表达检索词之间关系的检索方法 布尔逻辑算符主要有:逻辑与 ( AND * )、逻辑或 (OR +)、逻辑非 (NOT -) 名称名称符号符号表达式表达式功能功能逻辑与逻辑与 * 或andA*B |空格同时含有提问词A和B的文献,为命中文献逻辑或逻辑或+ 或orA+B凡是含有提问词A或B的文献,为命中文献逻辑非逻辑非 - 或notA- B凡是含有提问词A但不含有B的文献,为命中文献 刘亦菲照片刘亦菲照片││刘亦菲写真刘亦菲写真“逻辑或逻辑或”实例实例 百度高级搜索百度高级搜索用用““包含包含””、、““不包含不包含””等词表等词表示示““逻辑与逻辑与””和和““逻辑非逻辑非””“布尔逻辑布尔逻辑”应用实例应用实例 布尔逻辑算符的运算次序:布尔逻辑算符的运算次序:NOT > AND > ORNOT > AND > OR( )( )号里的部分运算优先号里的部分运算优先例如例如: (A OR D) AND B: (A OR D) AND B 表示先执行表示先执行““A OR DA OR D””的检索,的检索, 再与再与B B进行进行AND AND 运算。

运算 u位置检索技术位置检索技术 位置检索技术就是利用一些特定的位置算符来表达检索词之间的位置关系 [注意] 检索系统不同,位置算符的规定也不尽相同 位置算符主要有:位置算符主要有:邻近位置算符W、N、nW、nN句子位置算符S(Sentence)字段位置算符F(Field)………………….... ((W W)或)或(( ))━━ withwithW W算符两侧的检索算符两侧的检索词间为空格或标点词间为空格或标点符号,词序不变符号,词序不变X(w)RAYX(w)RAY   X RAY X RAY 或或X-RayX-RayCD(W)ROMCD(W)ROMCD-ROMCD-ROM((nWnW))————n n WordWord允许算符两侧的检允许算符两侧的检索词之间最多可插索词之间最多可插入入n n个词,词序不个词,词序不变蔬菜蔬菜 (2w) (2w) 栽培 栽培 蔬菜的栽培蔬菜的栽培 蔬菜无土栽培蔬菜无土栽培 ((N N))————nearnear算符两边的检索算符两边的检索词不允许插入其词不允许插入其他单词或字母,他单词或字母,词序可以颠倒词序可以颠倒规模化(规模化(N N)饲养)饲养 规模化饲养规模化饲养 饲养规模化饲养规模化 ( (nNnN) ) 算符两边的检索算符两边的检索词允许插入词允许插入n n个其个其他单词或字母,他单词或字母,词序可以颠倒词序可以颠倒规模化(规模化(5N5N)饲养)饲养 规模化饲养规模化饲养 饲养规模化饲养规模化 规模化畜牧饲养规模化畜牧饲养规模化商品肉猪的规模化商品肉猪的饲养饲养 F F ━━FieldField““F F””的含义为的含义为““fieldfield””。

算符算符两侧检索词必须两侧检索词必须在同一字段中出在同一字段中出现,词序不限,现,词序不限,中间可插任意检中间可插任意检索词项黑木耳(黑木耳(w w)多糖)多糖((F F)抑菌)抑菌/ /题名,题名,文摘文摘S S━━ sentencesentence算符两侧检索词算符两侧检索词同时出现文献记同时出现文献记录的同一句子或录的同一句子或短语中,词序不短语中,词序不限玉米(玉米(w w)杂交)杂交((S S)鉴定)鉴定 u截词检索技术截词检索技术 又又称称部部分分一一致致检检索索,,截截词词检检索索技技术术就就是是用用截截断断的的词词的的一一个个局局部部进进行行的的检检索索,,并并认认为为凡凡满满足足这这个个词词局局部部中中的的所所有有字字符符((串串))的的文文献献,,都都为为命命中中的文献 有限截词有限截词有限截词有限截词一个截词符一个截词符一个截词符一个截词符号代表一个号代表一个号代表一个号代表一个字符字符字符字符????# # # #等等等等computer??computer??computer??computer??computercomputercomputercomputercomputerscomputerscomputerscomputers无限截词无限截词无限截词无限截词一个截词符一个截词符一个截词符一个截词符号代表一个号代表一个号代表一个号代表一个字符,也称字符,也称字符,也称字符,也称为通配符为通配符为通配符为通配符* * * *等等等等computer*computer*computer*computer*computerscomputerscomputerscomputerscomputeringcomputeringcomputeringcomputering computeredcomputeredcomputeredcomputeredcomputerizationcomputerizationcomputerizationcomputerization 按截断的位置来分,截词技术有后截断、前截断、中截断和中间截断四种类型。

后截词检索 (前方一致) 将截词符号放置在截词的后方,同截词符号前面的字符串信息相同,即为命中 如:生产??—生产,生产力,生产工具,生产方式 前截词检索(后方一致) 将截词符号放置在截词的前方,同截词符号后面的字符串信息相同,即为命中 如:??英语考试—四级英语,六级英语,研究生英语考试 中截词检索(前后一致) 将截词符号放置在截词的中间,同截词符号前后面的字符串信息相同,即为命中 如:信息??类型一信息资源类型,信息交流类型 前后截词检索(中间一致) 将截词符号放置在截词的两侧,同截词符号中间字符串信息相同,即为命中 如:*考试*——英语考试,考试试题,计算机等级考试指南,考生考试前的心理调整等 前方一致、完全匹配、任意匹配前方一致、完全匹配、任意匹配“截词截词”应用实例应用实例 u限制检索技术限制检索技术 又称字段检索法,指限定检索词必须在数据库记录中规定的字段范围内出现的一种检索方法。

缩小和限定检索范围,提高查准率 数据库指长期存储在计算机内,有组织、可共享的数据集合 数据库构成数据库构成 数据库构成:字段、记录和文档三个层次 字段(基本字段、辅助字段)→记录→文档(顺排文档、倒排文档)→数据库 字段(Field) :字段是组成记录的数据项,是记录的基本单元描述文献信息具体特征,如篇名、作者、主题词等 一条记录可有若干个字段,字段决定着检索点的数量设计 字段分为基本字段和辅助字段 基本字段主要是描述文献内容特征的字段,如篇名、文摘、叙词、自由标引词等字段; 辅辅助助字字段段主要是描述文献外表特征的字段,如著者、机构名称、语种、文献来源等字段 字段字段字段字段“限制检索限制检索”实例实例 十、文献信息检索程序u分析检索要求,确定检索范围;u选择检索工具(系统)和方法;u选择检索途径和检索标识;u调整检索策略,筛选检索结果;u记录文献线索,获取原文 十一、 信息检索效果评估 所谓检索效果,就是利用检索工具(系统)开展检索服务时产生的有效结果。

u查全率与查准率查全率与查准率查全率查全率= =检出相关文献量检出相关文献量/ /文献库内相关文文献库内相关文献总量献总量××% %如:利用某个检索系统查找某课题,假设该系统文献库中共有相关文献总量为40篇,只检出30篇,那么查全率为75% 查准率查准率= =检出相关文献量检出相关文献量/ /检出文献总量检出文献总量××% %如:利用某个检索系统查找某课题文献,假设检索出文献总量为50篇,经审定只有40篇与课题有关,那么查全率为80% 查准率也称之为相关率 u影响查全率与查准率的因素影响查全率与查准率的因素 (1)标引的影响 (2)检索语言的影响 (3)检索策略的优劣 (4)查全率与查准率的互逆相关性 。

下载提示
相似文档
正为您匹配相似的精品文档