计算机信息检索教学课件汇总完整版电子教案全书整套课件幻灯片最新

上传人:m**** 文档编号:570014837 上传时间:2024-08-01 格式:PPT 页数:185 大小:9.87MB
返回 下载 相关 举报
计算机信息检索教学课件汇总完整版电子教案全书整套课件幻灯片最新_第1页
第1页 / 共185页
计算机信息检索教学课件汇总完整版电子教案全书整套课件幻灯片最新_第2页
第2页 / 共185页
计算机信息检索教学课件汇总完整版电子教案全书整套课件幻灯片最新_第3页
第3页 / 共185页
计算机信息检索教学课件汇总完整版电子教案全书整套课件幻灯片最新_第4页
第4页 / 共185页
计算机信息检索教学课件汇总完整版电子教案全书整套课件幻灯片最新_第5页
第5页 / 共185页
点击查看更多>>
资源描述

《计算机信息检索教学课件汇总完整版电子教案全书整套课件幻灯片最新》由会员分享,可在线阅读,更多相关《计算机信息检索教学课件汇总完整版电子教案全书整套课件幻灯片最新(185页珍藏版)》请在金锄头文库上搜索。

1、计算机信息检索计算机信息检索的过程计算机信息检索的过程结构化、半结结构化、半结构化、非结构化构化、非结构化信息资源信息资源检索系统检索系统专题数据库、专题数据库、OPAC、一般和多元搜索引擎、一般和多元搜索引擎、智能代理、国际联机系智能代理、国际联机系统,多媒体检索系统统,多媒体检索系统 第一章 信息概述l信息的特征客观性:信息是客观事物运动与状态的反映。动态性:客观事物的变化是永恒的,持续断的。相对性:信息对于信息用户永远是相对的。依存性:必须依附于一定的物质形式(声波、物质载体等)。可传递可干扰:可跨越时空传递,但是传递过程中时刻被干扰。可加工性:可以被分析、综合、扩充和浓缩。共享性:信息

2、可以被一个用户反复使用、或多个用户同时使用。l信息的类型(按信息表达形式划分)文字信息:用文字表达其内容的信息资料,如各种书刊读物;声像信息:通过声频信号负载和传递的信息,如电影、广播等;实物信息:通过实物来传递的信息,如样品等;机读信息:通过计算机阅读的信息,如磁盘、光盘等;l信息的类型(按信息加工的层次划分) 一次信息:以信息制作者的研究成果为依据创作(撰写)的,未经信息加工的原始信息,如图书、期刊论文、学位论文等 二次信息:汇集大量的信息,用科学的方法整序,以简练的语言揭示信息的内容和外部特征,并提供一定的检索途径的检索系统,如目录、索引、文摘、数据库、搜索引擎等 三次信息:将大量的一次

3、信息全面系统的再度选择、分析和综合,编制成使用目的更明确,效果更理想的检索系统。如综述、百科全书、年鉴。 零次信息:未经记录或未公开发表的最原始信息,其本身无法通过载体在较大范围内传播的信息。如口头交流、会议文献、学位论文、手稿等。 一次、零次信息是知识的创造,是信息检索的对象; 二次、三次信息是知识的重组,是信息检索的工具。l信息的价值和作用 信息是使人原有的知识结构发生变化的那一小部分知识: K(S)+ I=K(S+ S) 一个人原有的知识结构(KS)在受到某些信息增量( I)的作用后,便可形成新的知识结构(KS+ S)l信息动机的形成与转化 内在条件:在生活、学习和工作过程中遇到问题时感

4、到缺乏信息的状态,一旦达到较强的程度,被用户意识到,就会转化为信息动机 外在条件:施加于个体之上的各种有形或无形的刺激,其中尤以信息环境和信息意识的影响最为显著。l用户的信息行为 从用户的角度出发,人的信息行为主要表现为信息查询行为、信息选择行为和信息使用行为。穆尔斯定律:易用性和可近性。l信息的选择行为 信息选择是从某一信息集合中把符合用户需要的一部分(子集合)挑选出来。“符合用户需要”是信息选择的基本原则。其核心是: 1) 相关性:(和查全率有关) 信息交流过程中来源与终点之间接触效率的量度,凡是论述同一主题或属于同一领域的文献信息都可以认为是相关的,而不考虑其水平高低; 2) 适用性:

5、(和查准率有关) 用户对查询结果的价值判定,它反映了特定时间查询结果满足用户客观信息需要的程度,它受选择顺序和时间推移等多种因素作用,其判断的有效范围是非常短暂的。l计算机信息检索的原理 广义的信息检索是指将大量信息进行人工、或机器的概念分析,通过标引(分类、主题、题名、作者、代码、字段等),依据标引组织成计算机信息系统;信息用户则利用计算机,依据标引在信息系统中检索有关信息。所以它通常被称为“信息存贮与检索”。狭义的信息检索指广义的信息检索的后半个过程。 如果用最简洁的文字表达,那么就是信息的“存”和“取”。l计算机信息检索的本质 就是用户的信息需求与存储在计算机检索系统中的信息进行比较和选

6、择,即匹配(Match)的过程。也就是对计算机信息集合体(系统)采用一定的技术手段,根据一定的线索与准确找出(命中)相关信息。计算机信息检索的必备条件1 物质条件 从检索的过程来看,计算机信息检索的物质条件由数据库、通信系统和检索终端三部分组成。2 人员条件 1)对检索课题的了解的程度; 2)对检索系统(包括计算机和数据库)的掌握程度; 3)语言(检索语言、检索策略调整以及外语水平)的掌握程度。计算机信息检索系统的构成 1)信息数据的选择、处理、录入、维护子系统 2)词表和标引子系统 3)检索子系统 4)系统用户接口子系统 计算机信息检索的类型1 根据检索的内容可以划分为: 1) 数据检索:其

7、检索结果为数据,例如,从统计数据库中检索人口增长率 2) 事实检索:其检索结果为事实。例如,从中国科技名人数据库中查询某一位科学家的生平与业绩。 3) 文献检索:其检索结果是能够满足用户需求的文献线索或全文,例如,从中国学位论文数据库(CDDB)中检索学位论文。l 检索类型的综合分析: 检索课题:循证医学信息管理系统的实践运用分析 关 键 词:循证医学 信息系统 循证医学(运用)实践 1)利用“中国大百科全书”数据库,查询“循证医学”的概念; 2)利用美国著名的医学数据库(Medline)检索“循证医学”和传统医学在治愈率上的比较; 3)利用Springer Link数据库检索“循证医学”的论

8、文情况。手工检索和计算机检索的比较信息检索的本质没有变化,变化的只是检索手段、检索对象、信息表示的方式、存储信息的结构和匹配的方法手工检索:检索点少、费时、效率低,但查准率高,经济等。计算机检索:检索点多、省时、效率高,但查准率低,费用高等。 计算机信息系统的组织 定义:按计算机信息存储的方法建立起来的、供用户检索信息的一种有层次的体系,是表征有序信息特征的集合体。在这个集合体中,对所收录的信息的外部特征和内容特征都按需要有着详略不同的描述,每条描述记录(即款目)都标明有可供检索用的标识,按一定序列编排,科学地组织成一个有机的整体,同时应具有多种必要的检索手段。特征:信息集合、信息描述、概念标

9、识科学编排、多检索途径类型:OPAC、各类专题、网络数据库、搜索引擎、国际联机系统等职能:报道信息、存储信息和检索信息评估指标: 信息的收录范围; 信息特征标识的详略; 摘录及标引的质量; 信息报道的时效; 检索功能的完善。l信息系统的组织方法 字顺组织: 音序:根据汉字的读音及读音的符号的顺序组织信息; 形序:根据汉字的形体结构的某些共同之处加以排序; 号码组织: 按照信息被赋予的号码次序或大小顺序排列的方法;如专利号; 自然组织: 时序组织:按信息发生的时间顺序组织信息; 地域组织:按信息发生的地域、区划等地理顺序组织信息 字段组织:由若干数据项组成的记录来构成数据库的文档,通常 可分为基

10、本字段和辅助字段,每个字段都可以作为检索入口。 超文本组织:非线性的、联想的、跳跃式的、多角度多层次的 信息组织方法通过基本机构由结点的链组成,把信息中产生联 想的内容组合起来。 元数据组织:通过对网络信息(Web页面)外部特征和内容特征 的描述,并按照某一特征的规则组织信息的方法。 数据库的字段组织 数据库组成:符合某一目的需要的若干文档的集合 文档:若干个逻辑记录构成的信息组合 字段:用来描述实体的具体属性 记录:对某一实体的全部属性进行描述的结果 数据:对具体属性的表达元数据信息组织实例:元数据页面体信息省略 元数据概述 即关于数据的数据,它是对数据内容的描述。 都柏林核心集(Dubli

11、n Core) 通过电子资源提供者对WEB资源属性信息的描述,依据规范的款项对网络信息资源内容进行标引,依此提高网络资源的检索效率。 特点: 简易:只有15个元素且都具有一个能够普遍理解的语义。 通用:不针对某个特定的学科或领域,支持对任何内容的资源进行描述,增加了跨学科的语义互操作性的可能 兼容:通过内嵌在HTML语言中来实现其对Web资源的描述。 可扩展:提供能够扩展描述的方法,即限定词的使用。:模式体系(SCHEME)、语言种类(LANG)、类型(TYPE),即所谓的“堪培拉限定词”。 计算机信息检索语言计算机信息检索语言定义:精选于自然语言并加以规范化的词汇符号,用以对信息内容进行概括

12、其内容或外在特征的概念及其相互关系的概念标识体系。在信息的存储和检索过程中,它起着重要的语言保障作用。它既是沟通信息存储和检索过程信息标引和信息利用桥梁,又是检索系统表达信息主题概念和检索课题概念的人工语言。概念:1)等同关系: 同义:自行车和脚踏车、单车;斯里兰卡和锡兰; 准同义(近义):实验和试验;法律制度和司法制度; 2)从属关系:经济和工业、农业经济;文学和中国文学; 3)相关关系: 交叉:概念的一部分外延相重合,如市场文化学;矛盾:概念外延上的互相排斥,它们的外延之和等于其共同上位概念外延的关系,如女性与男性;对立:概念外延上的互相排斥,而它们的外延之和不等于其上位概念外延的关系,如

13、法制和犯罪;并列:是同一上位概念下的几个下位概念间的关系检索语言在表达各种概念及相互关系时,普遍地应用了上述概念逻辑的原理,并且利用了概念的划分与概括,概念的分析与综合这两种逻辑方法来建立自身的结构体系。l检索语言的类型:分类语言(C912、F715)反映信息内容特征主题语言(关键词、叙词等)题名、篇名著者、团体著者反映信息外部特征出版事项(出版单位、时间等)代码、序号(ISBN、专利号等)其他(区域、时代、年代等)分类语言定义:建立在科学分类的基础上,运用概念划分与概括的方法,将概念进行层层划分,逐级划分就产生许多级别的下位类目,层层隶属,形成一个严格有序、层次分明的知识门类等级体系。每个类

14、目分别以不同的符号作标志,每个分类号都是表达特定知识概念的语词,即分类语言的语词,如:C910社会学理论C913.1家庭婚姻C8统计学C912社会关系C913.2老年问题C社科总论C91社会学C913社会问题C913.3酗酒C92人口学C915社会工作C913.4性问题C93管理学C917社会保障C013,5青少年犯罪分C913.9其他社会问题使用分类语言的检索步骤 1)分析研究所需要查找信息的内容主题。 2)判断该主题在分类法中属于哪一大类,然后再从大类一级一级往下寻找,直到查到具体类目(或有关类目),记下类号为止。 3)根据检索到的类号在检索工具中检索,便可查得所需信息。例如,欲查有关税收

15、理论方面的信息。先进行分析得出主题是“税收”。由于专业范围窄,概念内涵较深,可概括为财政,财政又可概括为经济,然后再层层往下演绎。如:经济 财政金融 财政 财政理论 财政收入与支出 税收,分类号为F810.42。按此号到检索系统中去查找即得。l主题语言定义:用自然语言中的名词、名词性词组描述事物概念的中心语义。 也就是说,它以语言文字为基础,以反映特定事物为中心, 不论学科分野和科学技术的逻辑序列,直接借助于自然语言 的形式,作为信息内容的标识和检索依据的一种以主题字顺 体系为基本结构的检索语言。包括关键词语言、叙词语言和 标题词语言。例如: 网络资源利用中知识产权的法律思考 主题词:知识产权

16、 资源利用 网络资源 监狱管理中心理学实践的理论分析主题词:心理学实践(运用)监狱管理主题语言包含两个内容:1)指表达信息内容特征的、经过规范化的名词术语;2)指把这些名词术语按字顺排列成主题记号表或标题词表,以此作为规范语词标引和检索信息的工具。使用主题语言的检索步骤 1)对检索课题进行主题分析。如,中国税收理论方面的信息,其主题概念是中国税收理论,转换成主题词:税收、中国。 2)将所得出的主题概念转换成主题词; 3)再按查出的主题词字顺去翻检目录、索引或输入计算机数据库 4)注意选取最专指的主题词,再利用主题词找出相应的主题词。 因为选取上位类,范围过宽,缺乏查准率,反之选取下位类,范围过

17、窄,缺乏查全率。 5)应将主标题与副标题、说明语联系起来,如“社会主义空想”,应逆读为“空想社会主义”,“资本论传播”,应顺读为“资本论的传播”。 6)使用主题词检索信息时,还应充分考虑和选择该词的同义词、近义词作为检索入口,这样才能保证查全率。计算机信息检索的一般技术1 布尔逻辑算符指通过标准的布尔逻辑关系词来表达检索词与检索词之间逻辑关系的检索方法,也是现代信息检索系统中最常用使用的一种方法。常用的布尔逻辑算符有三种: 逻辑与:算符 AND * 示例:刑事犯罪 * 女性 computer AND law 释例:同时含有 *前后两者概念的信息 作用:缩小检索范围,提高检索的查准率 逻辑或:算

18、符 OR + 示例:WTO + 世贸组织 + 世界贸易组织 car OR automobile 释例:符合 + 前后概念其中之一即可 作用:扩大检索范围,提高检索的查全率 逻辑非:算符 NOT 示 例:知识产权 版权 automobile NOT truck释 例:满足前者概念,同时必须剔除后者作 用:缩小检索范围,提高检索的查准率2 截词符(truncation) 截词是指检索者将检索词在合适的地方截断,局部进行检索的一种方法,即凡满足这个词截断部分中的所有字符(串)的信息,都为命中信息。在西文中,使用截词方法可以解决一个词的单复数问题,词干相同而词尾不同的问题(例如,由同一词根派生出来的名

19、词、动名词、形容词和副词等)以及英美单词拼写差异等问题。 截词必须适可而止,截去部分过多会大大增加误检率。绝大多数的检索工具都支持截词功能。有的是自动截词(如Lycos),有的是在一定条件下才能截词(如Alta vista)。使用最多的是右截词(如comput*),部分支持中截词(如wom*n),左截词则少见(如*physics)。后截词:edit*、computer* 可以检索到:edit、editing、edition、editor和 computerized、computerization等前截词:*market *physics 可以检索到:supermarket、internet-m

20、arket等*physics,可以检索到astrophysics、biophysics、chemo-physics、geophysics等中截词:wom*n,可以检索到:woman、women等。需要注意的是: 按截断的字符数量来分开分为有限截断和无限截断两种类型。在不同的检索系统中对截断符号的表示具有不同的规定,例如,Dialog系统使用“?”,而BRS系统使用“$”,Orbit系统使用“#”等。 使用布尔算符需要注意的是: 1)表达方式有异: 符号型:“ + ”、“ * ”、“ - ”; 字母型:“and”、“or”、“andnot(not)”; 菜单型:“matchallterms”、“

21、matchanyterm”; 文字型:“MUSTcontain”、“MUSTNOTcontain”2)部分支持布尔算符如Yahoo!不支持逻辑非、如HotBot、Infoseek等不支持复合布尔算符,却允许用户根据自己意愿组配布尔算符。3)布尔算符的局限性显而易见。匹配标准僵化、相关度难以描述、输出信息不排序、难以构建理想的提问式等。尤其是公共检索系统更难以面对最终用户。所以各类系统均出现一系列方法来部分弥补其不足。如英国的Okapi系统采用词频加权模式,部分地弥补布尔算符的不足。3 限制检索: 限定检索的条件多种多样,主要和常用的是字段限制,它是限定检索词必须在数据库记录中规定的字段范围内出

22、现。如 Computer/AB(后缀:基本字段使用)、 LA=English(前缀:辅助字段使用)等。其余可以限定的有: 1)1)限定范围,即限定关键词必须是处于页面中的某个字范围内的。如限定在标题、URL、链点文字、网页文字、特定站点等部分; 2)2)限定网页深度(即网页层次); 3)3)限定在某一专题内。 如新闻组、黄页、电邮地址、股票等; 4)4)限定在某一分类类目内;如经济、文学、艺术、军事等 5)5)限定首先在5最优站点范围内检索; 6)6)限定网络资源类型(网站类型)。如个人网页、商业、教育等; 7)7)限定网络资源类型。如文件、声音、图像、HTML、编程语句等; 8)8)限定日期

23、。如特定日期前、后、最近某段时间内建立等等; 9)9)限定地区或域名。4 邻近检索 (nW):要求所连接的两个检索词在结果中相互距离不超过n个词(中文则不超过n个字),而且前后顺序不能颠倒。如:检索式second(W)world(W)war就只能检索出那些包含词组“second world war”的结果,而不会检索到包含“second war in the world” (nN):用途略逊一筹。作用相同,但前后顺序可以变换。如: Environment(2N)protection就可检索出包含 “environment protection” “protection of forest en

24、vironment ” “protection of the environment” “protection of water environment” 总的来说,(W)和(N)关系对提高检索的查准率有着不可低估的功用。如果SE能支持更多其他邻近检索关系,如DIALOG的(L)和(F)关系,查准率可进一步提高。 检索效果的分析和评估检索效果:是指计算机信息系统检索信息的有效程度,反映了数据库系统的检索能力。检索效果包括检索的技术效果和经济效果。 技术效果:信息系统完成其功能的能力,主要指性能和质量。 经济效果:信息系统完成其功能的价值确定,主要指成本和时间。 查全率:是衡量系统检索出与课题相

25、关信息的能力; 查准率:是衡量系统拒绝非相关信息的能力。 两者结合起来,即表示信息系统的检索效率。查全率查准率 一系列实验表明:查全和查准之间存在互逆关系。同时提高查全率和查准率是有难度的,对任何一个检索系统,在两者间存在一个最佳的比例关系,即查全率在60-70%,查准率在40-50%。关于检索步骤关于检索步骤检索课题检索结果分析研究课题选择检索系统确定检索途径调整检索策略选定检索方法初步检索结果获取原始文献制定检索策略NYl关于检索词和关键词关键词: 就是从检索课题的题目、摘要和内容中抽取出来,能够充分表达信息主题内容的具有检索意义的关键性词汇。例如: 检索课题:计算机领域犯罪心理的剖析 关

26、 键 词:计算机犯罪 犯罪心理(学) computer crime; criminal psychology 检索课题:家庭破裂和社会问题的内在联系 关 键 词:离婚 社会问题 divorce social problem 检索课题:监狱管理中的社会学原理运用 关 键 词:社会学(原理) 监狱管理 sociology; prison managementl检索课题关键词的概念分析1)一般关键词的分析 关键词分析就是分析出课题所涉及的主要概念,并选择能代表这些概念的若干个词或词组,进而分析概念之间的上、下、左、右关系。尤其值得注意的是对于新学科、交叉学科和边缘学科的课题,清楚概念关系就显得尤为重

27、要。概念分析的结果应以概念组为单元的词或词组形式列出,以便制订检索策略。 例如,检索课题:网络资源的知识产权保护 关 键 词:知识产权保护 网络资源2)隐含关键词的分析 有些课题的实质性内容往往很难从课题的名称上反映出来,课题所隐含的概念和相关的内容需要从课题所属的专业角度作深入分析,才能提炼出能够确切反映课题内容的关键词。例如“知识产权保护”的概念中就隐含着“版权”、“著作权”等概念。3) 核心概念的选取 有些关键词已经含有的某些概念,在概念分析中应予以排除。例如。“社会保障”包含“养老保险”、“失业保险” 、“医疗保险”、和“社会救济”等下位概念及同位概念“社会保险”。所以,如果需要检索“

28、养老保险”方面的信息,应直接使用养老保险做关键词最确切。 如果有些检索概念已经体现在所使用数据库中,这些概念也应该予以排除。例如,在使用法律文摘数据库(law abstracts)时,“法律(law)”这一概念一般可以排除;而computer一词在计算机数据库(The Computer Database)中一般也应予以排除。 另外有一些比较泛指、检索意义不大的概念,如“发展”、“趋势”、“现状”等在不是专门查找综述类信息时也予以排除。l关键词的判断和选择 关键词是表达用户信息需求和检索课题内容的基本元素,也是计算机检索系统进行匹配基本单元。正确的主题分析是制定检索策略的保证,它决定了检索策略的

29、质量和检索效果的好坏。1)使用通用性的术语 切忌使用国际上并不通用的术语,例如,“第三世界”、“下岗”等查找国外数据库。要尽量使用本学科在国际上通用的、国外文献上出现过的术语,避免使用冷僻词和自选词2)选择概念表达最确切的词语 关键词的选择不仅从课题名称中分析,更要从学科专业和检索目的的角度,概括出能够反映课题实质内容的检索词,以便提高检索的切题程度。3)从相应的规范词表中选定所需的关键词 很多数据库都有自己的主题词表,所以应该优先选用词表中的规范词,以便能使检索获得最佳的效果。在计算机检索系统中一般都备有联机查询指令供检索者联机确定关键词使用。l关键词的扩展处理 在确定关键词时,除了要考虑到

30、被选用关键词的缩写词及不同拼法的词,还要考虑反映主题概念的同义词、近义词等相关词,以便在编制检索式时考虑到这些因素,避免漏检有关的信息。 1)同义词的判断和选择 如:学名和俗名:激光(镭射)、马铃薯(土豆)、 简称和全称:TV(television)、澳州(澳大利亚)、WT 英美方式:“catalog”(catalogue)、“color”(colour) 。2)近义词的判断和选择 如:合同纠纷(合同争议)、国际矛盾(国际冲突) 跨国公司(跨国企业)、法律监督(司法监督)等。3) 概念为单位,构成组面关键词 例如: 检索课题:经济领域犯罪的心理分析 关 键 词:经济犯罪 犯罪心理 心理分析l关

31、键词的选取应该考虑一些其他因素: 例 如:关于经济领域的诈骗行为的心理剖析 关键词:经济诈骗 诈骗心理(分析) 这里有个概念的重叠和拆分的问题, 如果关键词为“经济领域 诈骗行为 心理剖析”,显然没有达到简洁、切题的要求。 例 如:家庭、婚姻裂变和青少年犯罪的内在联系 关键词:离婚(单亲家庭) 青少年(未成年人)犯罪 这里有个常用概念、相近概念需要考虑, 如果关键词标引为“婚姻裂变 青少年犯罪”,检索结果的查全率一定将大大降低。l检索点的确认课题名称:1998-2000年度邓伟志先生在报刊上发表的有关社会学家庭婚姻的论文有多少? 检 索 点: 1998-2000 报刊论文 邓伟志 社会学 家庭

32、婚姻 (时间) (范围) (人物) (学科) (主题)检索课题的分析和研究这是指在着手查找信息前对课题进行分析,明确学科或专业的范围,弄清检索的真正意图及实质。它包括了解课题的内涵概念范围和外延概念范围,以便确定检索标识(检索词、分类等);明确课题所需信息的内容、出版国别、语种和年限;同时还要在分析的基础上形成主题概念,包括所需信息的主题概念有几个?概念的专指度是否合适?哪些是主要的?哪些是次要的等。1 1)专业范围:确定该课题涉及哪些专业及其相关的学科。2 2)时间范围:确定该课题需要检索信息的年代范围。3 3)地理范围:了解课题在哪个国家处于领先地位。4 4)语种范围:该课题在哪国占优势,

33、选择该国母语的检索工具。5 5)信息类型:选择与课题有关的、针对性强的检索工具。检索策略的制定检索策略,即将课题的提问及其检索词与检索工具的收录内容、编排特点相匹配而确定的检索方案或程序。制定检索策略的主要内容是,在分析检索课题的基础上,确定要利用哪些检索工具,确定查找年限和专业范围的选择,确定检索用词并判明各词之间的逻辑关系与查找步骤等事项的科学安排。如C913.5*G=青少年犯罪*E=2001制定检索策略的关键环节1)对检索课题的标引要准确。2)选择收录全面、年限长、地域广,学术权威性高,编排方法科学,功能较多,易于使用的检索系统,这样才能提高检索效果。3)全面、综合地考虑选择检索途径,取

34、长补短;综上所述,详尽分析检索课题,从而确定检索目标,是制定良好检索策略的基础;选择适当的检索工具,是使合理的检索策略得以实施的前提条件;检索途径的确定和检索词的调节,是检索过程的关键环节。只有使这些环节达到最优化,才能优化检索策略。 选择检索系统要根据课题要求,选择与所查课题相适应、质量较高、检索手段比较完善的检索系统须了解和掌握其适用范围、收录特点,然后可通过三次信息的选择和检索,如“Subject Guide to Dialog Database”、数据库目录等工具指引到二次信息检索工具。例如,美国E. . P. . Sheehy编著的Guide to the Reference Boo

35、ks,它介绍多种工具书,是目前世界上主要的指导使用工具书的工具书。在选择检索工具时,要考虑的主要问题如下:1)内容和时间上,考虑数据库内容对课题内容的覆盖面和一致性2)手段和技术上,机检具有较高的检索效率,但查准率低,缺乏回溯性,选择时需掌握其收录信息的年代范围,才能获得满意的结果;手检效率低,却具有良好的查准率。3)考虑价格和可获得性,应选择就近容易获得的检索系统。检索途径是进入检索的入口。1)反映信息内容特征的(主题、分类)途径:2)反映信息外部特征的(著者、题名、代码等)途径。上述两类途径构成了信息检索的整个检索途径体系。在计算机信息系统中,检索途径还有很多,几乎信息的每一个特征(如出版

36、社、出版年代等)都可作为检索途径。显然,检索途径的多少直接关系到检索的便利。 每种检索途径各有特色,不可偏废。应根据检索要求、已知条件、设备是否齐全等因素,尽量综合利用各种途径,取长补短,进行优化选择,以提高检索效果。 例如:为了解某一学科的发展历史、研究现状和发展趋势,为了制定战略决策和进行预测而搜集有关信息,应以分类途径为主,辅以主题检索途径;为研究解决某一具体问题或攻克某一技术难关,应以主题途径为主,辅以分类途径;如果已知检索课题的外部特征,则应选择题名、著者、代码等检索途径;如果已知检索课题的内容特征,则应选择主题途径或分类途径。选择检索方法(1)追溯法:1 1)传统追溯法;2 2)引

37、文追溯法工具法:1 1)顺查法;2)倒查法;3 3)抽查法交替法:1 1)直接交替法;2 2)间隔交替法检索方法的选择原则:1)检索条件 在没有检索工具可供利用的前提下,采用追溯法较为实际。虽检索效率不高,费时费力,但比逐期或逐年翻查原始信息要快得多。在原始信息收藏比较丰富的前提下,可查得一批有用信息;在有检索工具可利用时,以采用工具法为佳。其检出率要比追溯法高,所以工具法是最常用的检索方法。2)检索要求 信息检索的一般要求是:广、快、精、准。若课题检索的目的在于系统收集信息,进行综合分析和研究,这样就需要评论性、战略性信息,以便供决策某一问题参考,即“普查”型检索。对信息的选择检索方法(2)

38、 系统性、全面性要求较高,一般不能有重大遗漏。在检索时间比较宽裕时,可以采用顺查法,利用检索工具进行检索。如果检索的目的是解决与某一课题有关的关键性技术问题,即“攻关”型检索。这种情况要求既“快”,又“准”地提供关键性信息。由于时间紧迫,无疑不能采用顺查法,而宜用倒查法迅速查得最新技术信息。3)学科特点 要考虑检索课题的学科发展特点。新兴学科,起点年代不长,又有准确的可供查考的起始年代,可采用顺查法,也可采用倒查法;年代久远的学科,只能采用倒查法。但是历史悠久的传统学科,其发展过程总是波浪起伏地发展,在兴旺时期,信息量多,反之亦然检索信息时,可重点抽查学科发展的高峰时期,当然,这种考虑、学科特

39、点的检索原则同样地适用于专业特点、行业特点或技术特点的情况。检索策略的调整检索过程是一个动态的随机过程,在某些检索环节中,会不可避免地产生一些和检索目标相差甚远的现象。检索词过宽泛或偏窄而造成扩检和漏检,检索词不规范而引起的误检等。所以有必要在评价检索效果的基础上,对检索效果进行信息反馈,便于重新修正检索策略,调整检索手段,进行新一轮的循环检索,从而实现检索目标的完善。以SKBK为例:C913.5 * G = 青少年犯罪 * E= 2001C913.5 * (G = 青少年犯罪 + G=未成年人犯罪)* (E=2001 + E=2002)C913.5 * (G = 青少年犯罪 + G=未成年人

40、犯罪 + B = 青少年犯罪 + B=未成年人犯罪)* (E=2001 + E=2002)SKBK数据库检索举例数据库检索举例学号:123456 姓名:XXX检索课题:现阶段青少年犯罪的现象分析关 键 词:青少年犯罪(未成年人犯罪) 检索对象:SKBK数据库检索对象简介:SKBK是全国报刊索引电子版。收录了全国社科期刊,报纸,内容涉及社会科学各个学科。收录原则为核心期刊全收、非核心期刊选收的原则,年更新量约20余万条,为目前国内特大型文献数据库之一。检索步骤:1)C913.5 234(篇)2)C913.5 + D917 675(篇)3)C913.5 + D17 + D697.5 1455(篇)

41、 (作业不能省略)N)(C913.5 + D17 + D697.5)* (G=青少年犯罪+ G=未成年人犯 罪)* E =1997 D = 北京法制报 67(篇) 【序号】1382【分类】D669.5【题名】市场经济的负效应与青少年犯罪【著者】鲁雪英【出处】安徽大学学报:哲社版.-1997.(3).-61-64【年份】1997【主题】青少年犯罪;市场经济-【序号】16962【分类】D669.5【题名】对25名青少年吸毒引发犯罪的分析【著者】王循【出处】北京检察.-1997.(5).-31-32【年份】1997【主题】青少年犯罪;吸毒;案例分析-【序号】18343【分类】D669.5【题名】对门

42、头沟区未成年人犯罪情况的调查及预防对策【著者】吴世芳【出处】北京警院学报.-1997.(2).-31-35【年份】1997【主题】青少年犯罪;预防犯罪;调查报告;北京市-检索结果复制五条打开数据库输入检索表达式在索引词典文档中比较和匹配从记录号倒排文档中调取记录号集合记录号集合之间的逻辑运算从顺排文档中调取记录输出命中信息结束检索另选数据库重新输入检索标识结果不匹配篇数不合要求重新调整检索策略记录内容不合要求数据库检索原理数据库的检索原理注释: 在输入检索词后,系统主要操作的对象是顺排、倒排文档在输入单个检索词的情况下(如“软件”),系统首先查找索引词典倒排文档,并在显示器上响应,给出含有“软

43、件”一词的记录数,同时将这些记录的地址调入内存。在系统接到用户显示命中记录的指令后,调用记录号倒排文档,根据记录号从顺序文档中读取并显示记录。有的系统则在接受用户检索词后,顺次搜索索引词典文档、记录号文档和顺排文档,用户可同时看到命中的记录数和首记录的全部内容。 在输入两个以上检索词的情况下,系统除了进行上述操作外,还要对记录号集合之间进行布尔逻辑运算。 以下三种情况,可以通过或者换用其他数据库,或者重新输入检索词,或者调整检索策略的办法予以解决。 1) 对输入的检索词,系统响应为“0”,即检索词与索引词典中标识词不匹配; 2)2) 对输入的检索词,系统响应的篇数或者太多,或者太少; 3)3)

44、 对输入的检索词,系统最后给出的记录并不合乎课题要求。数据库检索的过程介绍例如,检索课题:计算机在监狱事务方面的运用 数据库检索的具体过程: 1)先把课题编制成检索策略输入系统,系统中的索引文档对检索策略中的“计算机”和“监狱事务”分别与存储标识进行匹配,显示出“计算机”的信息有1299条,“监狱事务”的信息有392条。 2)系统分别到存取号倒排文档中找出这两个词对应的地址号(如12和90),同时找到了含有“计算机”和含有“监狱事务”的所有信息的存取号,并把它们调入内存单元进行组配运算。 3)组配运算的结果,有23条信息符合要求,显示各自的存取号。 4)系统到顺排文档中按存取号调取命中的三篇记

45、录,并将记录打印输出给用户。l数据库分类 可以将信息数据库划分为二大类。 1)参考数据库(Reference Database) 还需要进一步查找原文或其他资料的一类数据库。它包括 书目数据库:向用户提供信息线索,只能检索出信息的 标题、出处、著者、主题等。可分为文摘和索引数据库 指南型数据库:能提供用户参考、指南的各类信息,如企业、机构等名称、地址电话、人物、出版物、项目、活动等简要描述信息 2)源数据库(SourceDatabase)数值型数据库:提供数据或数值类信息。术语数据库:存储和检索名词术语信息,如电子词典等;图像数据库:存储和检索各种图像或图形信息及文字说明资料;全文数据库:存储

46、和检索文献全文或其中主要部分的信息;超文本数据库:存储内容分割为若干独立利用的结点,使用链路连结点等方式进行存取,形成了特殊的存取模式;l 高级检索功能 1 加权检索 1)类似布尔,即用“+”号或选择“must contain”表示某检索词“一定要出现”在检索结果中,如“+亚洲 +金融风暴”,即检索结果中必须同时含有“亚洲”和“金融风暴”这两个词)。即用“”号或选择“must not contain”表示某检索词“一定不能出现”在检索结果中。 不加符号或选择“should contain”表示某个检索词“可以出现”在检索结果中。 2)加权(阈值),即对每个检索词根据其重要程度赋予一定的权值,设

47、定某阈值,检索结果的权值超越该阈值就算命中 如,检索词计算机、用户、软件,权值分别为5、8、4。阈值为9。 计算机、用户、软件 权值和=17 大于9,命中。 计算机、用户 权值和=13 大于9,命中。 计算机、软件 权值和=9 等于9,命中。 用户、软件 权值和=12 大于9,命中。 用户 权值和=8 小于9,不命中。 2 自然语言检索 系统利用非用词词表排除非关键词后检索。如please find for me something about automobile sale in New York state,系统会排除“禁用词”、“检索提问词”后将“New York state”、“aut

48、omobile sale”作为关键词进行检索。3 相关信息反馈检索 希望得到类似检索结果中某一结果而采取的方法,如Google 中的“类似网页”,Excite中的“search for more documents like this one”,ycos中的“More Like This”.4 模糊检索允许被检索信息和检索词之间存在一定的差异。如监狱管理、管理监狱、监狱的管理等。也包括用户的输入错误,以及格某些词汇在不同国家的不同形式,例如“catalog”、“catalogue”.5 概念检索借助于一个同义词表对输入的检索词自动添加同一概念的词汇集合(同义、近义、广义和狭义词等),有助于提高

49、查全率,但不会降低查准率。例如检索“automobile”、能同时包含“van” “bus”、“automobile”、“car”、“truck”, 等任一词汇的结果。又如在检索“公共交通”这一概念时,有关“公共汽车”或“地铁”的信息也能随之检索到。例如Excite.需要指出的是: 1) 1) 检索技术的逐步改善能在一定程度上提高查准率,却减弱了检、索词的易用性。 2) 2) 上述技术中,布尔检索、加权检索、限制检索和按相关度排列检索结果是主要的检索技术。 3)3)选择一定数量、质量高的检索工具,在各自的检索结果中选定10%(结果罗列前面的),整理去重,无疑是一个提高检索效果的好办法。l联机公

50、共书目检索(OPAC)联机公共书目检索系统是供读者查询馆藏数据的联机检索系统。特点:数据丰富、界面友好、检索方式灵活、服务周到。检索字段选择检索字段选择布尔逻辑举例检索符号说明检索模式选择搜索引擎概述 随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。因特网数据库信息用户搜索引擎搜索引擎的工作原理:双向的服务器

51、结构检索结果检索词检索软件搜索所有的网页搜索相关的网页编制进数据库RobotSpider 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:1目录式搜索引擎: 以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。2机器人搜索引擎: 由一个称为蜘蛛(Spider)

52、的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、NorthernLight、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:“天网”、悠游、OpenFind等。多元搜索引擎的信息检索多元搜索引擎的信息检索 用户在实际使用中,为了满足搜索的查全率,往往需要同时使

53、用多个具有不同数据收集范围、具有不同搜索特色的搜索引擎。此外,每个搜索引擎都有自己的搜索规则和使用不同的检索符号,使得信息用户必须记住那些繁琐的检索符号,为此人们往往只是使用自己最熟悉的搜索引擎。正是在这样的背景下,为了便于用户在各个搜索引擎间进行灵活快捷的切换,产生了多元搜索引擎。 多元搜索引擎没有自己的网页索引数据库,只提供一个集成的查询界面,用户的查询要求经它加工处理后转发给相应的多个相关的独立搜索引擎完成(这个过程可以是自动完成,也可以是由用户个性化选择来完成),返回的检索结果经它处理后以统一的显示格式提供给用户。 常用的国外多元搜索引擎有: Mamma、Ask Jeeves、Sear

54、ch、Profusion、ByteSearch MetaGrawler、Savvy Search等。搜索引擎的选择对搜索过程的分析展示单个搜索引擎A多元搜索引擎的主页单个搜索引擎B单个搜索引擎C单个搜索引擎N 把多个搜索引擎的检索结果综合起来,从中选取与用户查询相关度较大的,排除掉重复的和相关度较低的检索结果,并将检索结果以统一的界面呈现给用户。哈!我再以不必为每种搜索引擎不同的搜索规则而头痛了!多元搜索引擎的工作原理特点: 1)无需数据库的建立和维护,集中精力投入检索结果的处理; 2)避免在多个系统之间的切换、重复输入检索要求; 3)省略各搜索引擎在检索语法、规则、显示格式上的差异; 4)可

55、以根据自己的检索习惯配置成具有个人风格的Web检索工具 5)实现了检索系统和索引数据库的分离类型: 1)并行处理:将用户的查询要求同时转送给它链接的多个独立搜索引擎进行查询处理,可以提高查询的效率,是主要的模式。 2)串行处理:它将用户的查询要求依次转送给所链接的每一个独立的搜索引擎进查询处理。人工智能技术在信息检索上的运用引言:信息检索的基本原理就是要完成对信息集合和需求集合的匹配与选择。一个完整的信息检索系统,其基础工作是:1)对信息进行采集、标引、存贮、处理,形成信息集合体,如数据库等(见图中“信息处理部分”);2)提供能表达用户信息需求的检索模型机制,便于用户清楚、准确地以此来描述自己

56、的信息需求,进而形成需求集合,如提供布尔逻辑算符、截词符、权值等(见图中“信息库部分”);3) 以优良的匹配选择算法完成信息和信息需求的匹配,选择与匹配机制是信息检索系统中匹配与查找技术的集合,经过匹配后的结果提供给用户(见图中“选择与匹配机制部分”);4)表达用户信息需求,形成提问模型;把检索结果进行适当加工后送给用户;用户对检出的结果进行相关性判断,调整或修改检索策略,返回反馈信息,重新检索,直到检出满意的结果为止(见图中“人机接口部分”)。信息处理部分信息源信息标引信息库部分数据库管理系统数据库选择与匹配机制人机接口部分构造提问模型构造提问模型检索结果加工数据库从以上结构分析中,可以看出

57、传统信息检索系统的功能特点1) 在文本处理部分所采用的语言是人工标引语言,对文本信息也只是特征描述,没有涉及到语义层次;2) 在人机接口部分,用户也不能使用自然语言来表达自己的信息需求,而是使用与所用标引语言相符的表达方式;3) 用户需求的表达完全依靠用户本身对自己需求的描述,系统只是被动地、僵硬地执行命令;4)在选择与匹配部分,系统只是机械地把用户需求与信息集合进行相符性比较,无任何创意、变通。反馈人工智能实质上是模仿人的大脑而展开的,其特色在于知识的逻辑推理,即以较完整的推理系统为核心,对知识进行组织、再生和利用。基于规则的推理思想是人工智能的本质特征。以人工智能方法所建立的系统的特色就在

58、于对知识的逻辑推理。它以较完整的推理体系为核心,实现对知识的组织、再生和利用。基于规则的推理思想就是其中的一个典型。两者的共同点:检索系统目前还没有达到在知识层次上进行加工、处理,但它至少也是在通过间接的途径实现对知识的处理。两者在对知识的处理中均以知识的获取、存储、利用为其主要研究内容,这就为构造人工智能技术与信息检索技术相融合提供了结合点。两者的差异:主要表现在对知识处理的理论方法和侧重点有所不同。对于信息检索而言,信息检索系统具有智能特性,对完成信息检索系统的最终目标最好地满足用户信息需求,将无疑具有质的帮助,这也是信息检索系统的发展趋势智能信息检索系统。l智能检索系统与传统检索系统的比

59、较 1)传统的信息检索系统要求用户将其信息需求用规范化的语言来表达,并以严格的格式输入系统; 而智能信息检索系统能理解、分析用户的自然语言提问,并产生合适的提问模型,用户与系统间可以进行自由、充分的反馈交流,直到获得满意的结果。 2)传统的信息检索系统中,信息标识是根据词频统计得出的,标引时只利用了信息的字符形式,未涉及信息的内容本身,所以标识往往不能反映信息的真实内容; 而智能信息检索系统具有处理自然语言文本的能力,它利用知识库中的有关知识进行语法、语义分析,从内容上真正理解并准确描述信息所论述的主题。 3)传统的信息检索系统不能够很好地处理主题概念、标识之间的各种联系和因果关系; 而智能信

60、息检索系统则可以在知识库中使用语义网络、框架等各种知识表示方法来充分体现这些关系。 4)传统的信息检索系统的检索结果只是一些信息线索,指引用户去获得原始信息, 而智能信息检索系统可以将部分信息内容以知识形态存放于目标知识库中,通过对知识库的搜索和推理,得出用户能够直接加以利用的信息。 5)传统的信息检索系统缺乏适当的人机交互。这种交互只限于“YES”、“NO”或“菜单式”。信息检索实质上是用户询问和信息集合之间的匹配,用户的参与应该是整个信息检索过程的中心,只有用户充分地参与了信息检索过程,才能取得满意的效果。 而智能信息检索系统采用自然语言实现人机通讯,检索过程中用户和计算机之间可以不断地进

61、行自由、充分、多方面的反馈交流,具有较高的人机交互水平。l智能信息检索系统的类型 1)智能接口检索系统利用人工智能技术,改善现行检索系统的接口,建立智能接口系统或称智能中间人系统(见下图)。对对用用户户来来说说,使人机界面友好,可以主动地帮助用户选词、选库,构造提问模型,优化检索策略,并进一步根据用户的反馈信息调整检索策略,以获得更优的检索效果;对对系系统统标标引引人人员员来来说说,可以通过智能接口对原始信息进行加工处理,保证信息的质量,使其充足且不失真。而完全基于知识表示的智能信息系统则完全抛弃原有的存储方式,而建立起一种用知识表示为集合的知识库,系统的服务项目也不再是间接的知识服务而是直接

62、的、针对问题或任务的服务。该知识库以其特有的知识库管理系统作为支持,对它的利用可以是直接的,也可以通过一定的推理来间接地利用。 智能接口检索系统主要由三部分组成: 智能接口部分 智能接口是用户与系统之间的通道。它的主要功能是对自然语言查询的处理;作为智能终端建立用户兴趣档案;加工检索结果。 知识库部分 知识库是智能检索系统的核心。它也由三个子系统 构成、知识库系统、数据库系统、检索推理系统。 信息处理部分 信息处理系统就是利用计算机自动处理自然语言形式的信息输入。它利用知识库中的语言学知识、科学知识和其他知识,对信息进行语法、语义分析,从内容上理解信息所论述的主题,并把它们表示成知识库中的知识

63、和数据库中的数据元素,不断地丰富目标知识库和数据库。信息处理部分信息源自然语言标引数据库部分数据库管理系统数据库推理与检索机制人机接口部分数据库知识库部分知识库管理系统数据库知识库构造提问模型检索结果加工自然语言反馈人工智能与检索系统的结合智能接口系统:CANSEARCH系统案例分析这是连接于联机检索系统MEDLINE的中间人系统。它不要求用户具有特定的知识或经过特殊训练,也不需要任何中间人(如图书馆员)的帮助,可供医生描述提问,检索有关癌症方面的文献。 它采用专家系统技术和抽词空间原理,应用规则表示法,利用触感终端与菜单选择的交互方式,使用PROLOG逻辑程序设计语言的编程方法,在美国利兹大

64、学医学图书馆的肿瘤信息服务部实现。它具有良好的检索专家的检索经验与技术,将之纳入检索系统,可使具有专业知识的人无须为检索知识与技巧而锁眉,从而使检索具有高度的友好性与易用性。比如,它能模式化人类专家的查找处理过程,实现许多人类辅助功能,诸如提供主题专门知识、辅助用户选择检索词、消除检索词间的不一致性及其它错误,根据用户的要求形成查找描述,基于部分结果和评价,修改查找描述,等等。智能接口系统:CANSEARCH系统评价 由于无须改变原有信息系统的存贮方式及结构方式,而只是在原有系统的基础上,加入一个知识库及其管理系统,通过该知识库中的检索专家的知识,并依此展开推理,从而使信息检索系统具有智能接口

65、的性质,因此,简便易行,开发费用不大,而且能充分利用现有检索系统的资源,这是其优点所在。另一方面,由于这种结合方式的数据来源仍是原有数据库,而这种库 又非智能数据库,故提供给用户的数据也只 能是现有数据库中固有的数据,不可能创造 出新数据供用户使用,所以这种信息检索系 统的智能因素是非常有限的。GeneCards -Web网上智能检索系统案例分析包含有HUGO/GDB(Human Genome Organization/Genome Database)人类基因有关数据的Web网上智能检索系统,由以色列的Weizmann研究所基因组研究中心和生物信息学中心共同开发,到2002年止,共收录了近万种

66、基因的有关数据,其特点有以下几个方面:1)智能检索接口系统它直接向用户提供检索策略的咨询和检索后的反馈调节如系统在你开始进行检索前,提供检索示例帮助你确定检索策略;如你输入一条检索条目,在系统中检索不到任何结果,系统将进一步提供改进检索策略的方案,和/或直接链接到其他与你检索有关的数据库的检索引擎,并提供有关数据库相关数据的简要说明。例如你检索有关乳腺癌(Breastcancer)基因的研究情况,用户将得到如下服务:1)提供检索策略示例,供用户参考当用户进入系统(可从http:/bioinfor.weizmann.ac.il/cards进入)时,系统提供关于检索策略的各种示例,供用户参考,如T

67、P54和BRCA1基因的标准检索示例,以及“apolipoprotein AND RNA editing”和“Stupidity”等多种示例供用户参考;2)辅助用户选词、选库、选择检索途径和构造检索式等例如,当用户输入“breast cancer”进行检索时,系统将返回该查询的零匹配的结果,“Guidance System”提供建议:检查“cancer”的 拼 写 方 法 , 并 提 供 相 关 的 可 供 扩 检 的 词 , 如“caorcan ”等等;系统建议你修改检索策略后,再进一步查询;3)提供与其它数据库的动态链接如检索“stupidity”,系统提示GeneCards未检索到有关数

68、据,但它提供了与其它数据库的链接,如与NCBISMEDLINE的链接,如选择相应的项目,将立刻检索出相应的文献,现可检索到文献15篇。使用户在利用多个数据库时,如同使用一个数据库一样。2)直接提供有关的知识信息,而不是简单让用户获得文献源 它利用其具有处理自然语言文本的能力,对从其它数据库中自动提取的文本自动地进行语法和语义分析,对有关基因和相应疾病的各个方面进行概括性描述,为用户提供相应的知识信息。如你检索“BRCA1”基因,你将得到有关该基因的功能和亚细胞位置,以及该基因相应疾病的描述,同时提供该基因的染色体位点,并提供该基因在临床方面的应用介绍。这样用户就象翻阅百科全书一样,可以直接获得

69、大量的知识信息,而其内容又是最新的。3)Web网上多数据库的动态链接 当用户进行检索时,该系统自动地与这些数据库进行链接,同时从这些数据库中提取与检索提问相匹配的数据,返回相应各种数据的概要说明,用户只需选择相应的说明项,便可获得更进一步的信息。这样既可以避免漏检和系统过于庞大而导致的检索效率低下,又可以免去用户不熟悉各种不同数据库的麻烦,从而以最小的代价,获得最满意的检索结果。完全基于知识表示的智能检索系统这是一种结构、功能新型的新一代智能信息检索系统(如下图)由于这类检索系统完全基于知识表示,并以知识推理来满足用户的知识需求,因而对用户来说,它具有与智能接口系统同样友好的人机界面;另一方面

70、,对于知识组织来说,由于它完全实现了自动化的知识组织,所以就不存在辅助标引、分类、文摘等功能的需求,因而这类检索系统不具有上面最后一项功能。除了良好的人机接口功能外,智能检索系统还有其特别的功能,检索功能:即基于知识库中有关专业知识,按照一定的推理机制,产生新知识,并以此来满足用户检索需求的功能;解释功能:即在用户需要时把检索与推理过程告诉用户,使用户确认输出结果的来龙去脉;学习功能:即在人机交互中,在推理过程中,不断把新的知识纳入知识库,作为新数据加入智能数据库中,且随着知识量的增加,直接获得知识的可能性越大。 信息语言部分信息源自然语言处理智能数据库部分智能数据库管理系统推理与检索机制人机

71、接口部分构造提问模型构造提问模型检索结果加工智能数据库自然语言反馈全新的智能检索系统:CODER系统案例分析该系统完全基于知识表示,是一个综合文献专家检索系统。该系统应用信息检索和人工智能技术,实现对综合型文献的分析、标引和检索,以提高信息检索的效率、效能和应用能力。CODER系统采用以专家为基础的分布式系统结构、黑板控制方法、自然语言处理、多种知识表示方法、推理、启发式查找方法、信息源利用计划、用户模型和逻辑程序设计等技术。另外,CODER还采用了模块结构,以便适用于不同的理论进行实验。CODER是一个独立系统,用于处理原始文献与用户直接通讯,其设计从基础开始,到操作多台计算机,并逐渐发展成

72、为综合型系统:利用文献的语义分析产生人工 智能表示模式;维护和应用用户知识;用大型综合 性词典支持自然语言处理;应用专知执行检索及其 它任务。全新的智能检索系统:CODER系统评价 由于它建立在知识表示与推理的结构基础之上,因而具有更多的智能特性,除了能利用智能知识库中已有知识来求解问题外,还能依据现有知识进行推理并获得新知,使系统具有创造性与高度智能性。但是,这种智能信息检索系统是独立于现有信息检索系统的一种新系统,它不能利用已有资源,而需要重新建库,再加上知识表示与推理机制之建立的困难性,故开发这种系统难度大,费用高,现实性差。结论:信息检索系统中纳入人工智能技术,将使传统信息检索系统具有

73、智能性,这不但改善了人机接口,而且大大提高了检索效率,使信息检索系统发生新的飞跃,这也将是信息检索的研究的热点和发展的总体方向。 人工智能与信息检索结合的障碍 目前,各种与特定专业结合的小型实验性智能信息检索系统已达到一定的数量,其中多数是以智能结合方式实现的,而且这些系统多只限于非常窄的专业领域,规模不大,对自然语言的处理也非常有限。人工智能在信息检索上的运用的障碍在于: 1)人工智能技术的局限性(知识获取和表示,自然语言处理等) 人工智能技术本身还不很成熟,知识表示作为人工智能技术的核心,就是要实现对知识的形式化描述。问题求解中所需要的对象、前提条件、算法等知识构造的某些过程都是通过知识表

74、示使其形式化,可以说知识表示是导致智能行为的关键所在。但是,目前这一技术还受来自自然语言处理技术方面的局限; 另外,如何使复杂多样的专业知识形式化、如何在检索系统中辨别某多义词当前的具体含义?如何了解用户特定的需求?这些都有待于继续研究。 人工智能技术的另一领域是自然语言处理技术。这一技术的目标就是要产生能精确地反映信息内容和信息提问的意义的表示,以便达到极端友好的人机界面,并促使检索效率的极大提高。自然语言处理技术是知识获取、知识表示技术的基础,也是实现完全意义上的自然语言提问的基础,其研究水平的高低决定了人工智能技术的发展水平。值得一提的是,目前对自然语言的处理,已从语法阶段上升到语义、语

75、用阶段,但要从完全意义上理解自然语言,仍很棘手,对自然语言的理解能力还限制在一些规定的词句或语法范围内,这就决定了智能信息检索系统所能具有的智能化程度。2)检索系统本身所固有的一些不利于结合的特点信息检索系统所涉及的专业范围一般较大,因而要将如此广博的专业知识完全表示为知识,通过推理来满足用户需求,将是一个巨大的难题。因为这不仅意味着如何使这些丰富多彩、广博专深的知识形式化,如何在这些知识间建立应有的复杂的联系,如何才能使推理规则科学有效等,而且还得处理专业间可能造成的歧义问题。另外,信息检索系统的服务对象专业各异,层次不同,如何为用户定位,也是一个难题。最后,作为传统信息检索系统中介的信息检

76、索专家,现在也把他们的经验与技术抽象为一个知识库(通常为一专家系统),但是这些专家的检索经验与技术很难简单地表达出来,而且不同的检索专家很可能持有不同的观点,有时甚至大相径庭,这也就给以专家系统形式纳入传统信息检索系统而成为智能信息系统的形成与完善发展造成了极大的障碍。 自然语言处理技术1)概念自然语言是指人们日常生活中所使用的语言,如汉语、英语等,计算机的程序设计语言如PASCAL、C等则是由人工设计而成的语言,故称为“形式语言”。自然语言处理(natural language processing,简称NLP)也称为自然语言理解,是侧重于研究计算机对于句子、篇章的处理。2)研究内容由于自然

77、语言处理侧重于句子、篇章,因而句法分析、语义分析、语用分析3方面便构成了自然语言处理研究内容的基础部分。自然语言处理应用领域:机器翻译、信息检索、人机接口、篇章理解。因此,这4个方面的技术构成了其研究内容的应用技术部分。3)自然语言处理与信息检索的关系信息检索是一种“语言的游戏”,为了从某信息集合中搜索出特定信息,用户需构造合适的语言集合以作为检索表达式。随着检索的计算机化和自然语言化,由检索系统内部提供合适的检索式成为可能,而自然语言的处理成为必要与关键。A:从信息检索的过程看自然语言的处理信息源处理阶段:自然语言处理能够对信息源做更精深的分析提炼,其它如数据挖掘的应用亦如此,它朝着知识管理

78、的层次发展 检索处理及匹配阶段:运用自然语言处理有两个明显的好处:自然语言提问更容易、更直接表达用户的信息需求;能克服和降低检索过程中最常见的现象之一:用户的检索式努力用词正确,但却未将潜在的有用信息包括在内,最终导致检索结果的不理想。信息排序输出:能提高信息排序的质量,因为它能更确切地理解用户的提问和意愿表示。B:从自然语言处理方面看信息检索领域采用的如引文索引法、同引聚类以及动态词关联显示技术是自然语言技术的反映。主要体现在:形态学:如自动标引中的词汇识别、联机检索过程中的截词检索和字顺浏览式检索;词汇学:如自动标引时的停用词排除、检索键自动替换、拼写错误的检测与改正、缩略语的处理等。4)

79、自然语言在信息检索中的应用关键词法:可用于编制印刷本的关键词索引,数据库的倒排档等。以自然语言作为入口词:利用计算机的换词功能,以自然语言辅助规范检索语言的使用。自由标引:标引员在对信息主题分析后,按一定规则自拟标引用词自动赋检索词和自动赋分类号:利用计算机的自动换词功能,根据从信息题名、文摘中自动抽出的关键词,通过自然语言与分类表或词表的对应表,赋予信息检索词或分类号。自动标引:由计算机实现信息标引,分为抽词标引和赋词标引两种类型,前者是从信息中自动抽出能表征信息主题的词作为标引词,而后者则在此基础上引入预先编制的词表来规范自动抽取出的词,不过这种词表从其生成来看与规范语言词表本质上是不同的

80、。l自动文摘:利用计算机来完成信息文摘的编制。其一般过程如下:原始文献的录入,使之转化为机读形式;确定每个单词和句子的“意义”与权值的测量标准;通过计算每个单词和句子的权值来分析输入计算机内的文献,选出一组最能代表文献主题内容的句子;排列和打印句子,形成文摘。文本检索:就是不对文献进行标引,而是以自然语言表达检索课题。它需要借助计算机的自动匹配功能,直接在篇名、文摘、正文中查找。文本检索要掌握字符串匹配、截词检索、位置逻辑检索等技术。单汉字检索。以单个汉字作为标引和检索基本单位的检索即为单汉字检索。其实质也是文本检索,不同点在于它将文本中的每个汉字以字为单位全部做成倒排索引,检索时,用单汉字组

81、配法查找。因而也被称为“全标引”。从另一个角度看,因单个汉字绝大多数不能独立表达信息主题概念或作为索引项,又等于没有标引,故也属于“无标引系统”。 自然语言检索概念从检索语言上看,自然语言检索就是在为信息检索标识时,使用信息作者、文摘编写者原来所用的语词或标引人员自拟的词语,而不是取自词表的语词;从技术上看,就是将自然语言处理技术应用于信息检索系统的信息组织、标引与输出;从用户来看,就是用自然语言作为提问输入和对话接口的检索方式。优点:符合客观需要,可以不受限制地随时输入新词,因而可以跟踪学科发展,加速计算机检索数据库的建设;相对受控语言来讲易用性强,检索方便简单;更好地体现了信息保障原则;完

82、全是专指的;相对于受控语言统一性好。缺点:不能反映概念词间的一一对应关系,也不能反映概念关系的隐含性,无法排除同义词、近义词、多义词等词间的含糊现象,影响查全率;由于选词没有严格限制,词量过多过杂,造成主题分散,影响查准率;相关文献不能相对集中,容易漏检。自然语言检索系统案例分析1)军用主题词表应用管理系统它是一种改良型、叙词机助标引系统,具有自然语言入口功能,属于第一种应用方式。在用该系统标引信息时,若表达信息主题概念的自然语言词与词表中的叙词一致,或与词表中的入口词(同义词或被组代词)一致,都可立即自动转换成叙词,并自动将叙词登录入标引结果字段;若表达信息主题的自然语言词在词表中没有对应的

83、叙词或入口词,该系统便会对自然语言词进行词素分析,利用词素相似性匹配原理,自动推荐一批有相同词素的叙词供选择;通过人工判别,选定合适的叙词(或组配)进行标引;若所推荐的词均不合适,则可将自然语言词作为自由词进行标引,并同时作增补记录。军用主题词表应用管理系统评价:该系统在应用词的相似度匹配原理时,以相同词素的个数为统计单位,并结合叙词词素的位置特征(如词素在词尾、在词首、在词中)及长度特征进行加权,可调整权值来扩充或压缩推荐词的数量以便选择,并加入同义词素避免遗漏等,从而使所推荐的词更具针对性和全面性。这种方法提高了词表的入口率,使标引工作更为容易。该系统所用的词素词表(称为知识库)采用在叙词

84、表自身词汇和语义关系的基础上进行自动、滚动切分,辅以少量人工干预的方法,切分效率较高。France Telecom的研究系统Telmi评价Telmi.是为中型短文本数据库设计的,France Telecom将其用在信息的中介服务中。所有边界在Minitel网上的服务项目都有对自己服务的一个介绍,它包括标目、标题、文摘。标题和文摘就是与每项服务活动对应的自然语言文本。这些信息经过Telmi.的自然语言处理工具的处理形成语义表达,所有的语义描述经过处理后汇集成文本数据库。同样,用户提问也经过这样的处理。最后,通过匹配得到的就是经过相关排序的服务项目的代码集。France Telecom的研究系统T

85、elmi.作为各种服务和用户之间的中介,提供名为Minitel Server的服务,它旨在通过一个视频文本终端给用户提供选择各种服务途径(包括银行、电子出版物、医药或法律咨询等)。它开发的Telmi.系统是一个带有语言、语义数据的信息检索系统,包含3个模块:自然语言处理模块、自动标引模块、检索匹配模块。其中,自然语言处理模块和自动标引模块用于分析信息并构建被标引的信息数据库;而自然语言处理模块与检索匹配模块则用于分析提问信息并从数据库中抽取相关信息。自然语言处理对于消除系统中信息标识用语的歧义和不确定性以及概念化地表达信息起着重要作用。在其自然语言处理模块中,含有词汇、句法及语义网分析工具,它

86、们是构建在开放型、宽领域的知识库基础上的,因而无论工具还是数据都可重复利用。其中:词汇层负责处理如误拼写、打字错误等问题;句法层用于消除词汇的模糊性并形成概念化的表达;语义层的作用在于完成句法层无法做到的消除句子的歧义性和模糊性。这一系统是一个全新的自然语言检索系统。大型数据库检索系统:DialogDialog概述 美国的Dialog系统是目前世界上规模最大的综合性商业联机检索系统,用户遍布全世界一百多个国家,在我国拥有大量的用户群。系统拥有数据库500多个,设计400多种语言,文献量达到三亿多篇,内容覆盖的主题范围概括了从社会科学到自然科学,从高新技术到时事政治、事实报道、商业经济、报纸新闻

87、等各个领域,主要分12个主题范畴,内容有:1)News & Media 2)Business & Finance 3)Intellectual Property 4)Gov.& Regulation 5)Technology 6)Energy & Environment 7)Medical 8)Pharmaceutical 9)Chemical 10)Food & Agriculture 11)Social Science 12)Reference 上述列出的12个主题相当于一级类目。为了能够让用户准确地选择所需的数据库,在每个主题之下又细分出更加详细的二级和三级类目,然后才列出与主题相关的具

88、体数据库。 Dialog系统的数据库的主要类型有:书目数据库、全文数据库、指南数据库、数值数据库和综合性数据库。Dialog提供八种服务方式: 1)Retrospective 回溯性检索 2)Selective Dissemination of Info.定题信息检索 3)Business Connection 商界连结服务(快速连接商业数据库) 4)Dialmail 电子邮件服务 5)Dialorder 原文订购服务 6)One Search 多文档检索服务(允许使用一个检索策略同时检索多个数据库,节省时间和费用,避免文献的重复检出) 7)Dialindex 数据库选择工具(同时扫描多个数据

89、库) 8)Other 其他服务(图像处理及输出,报表生成等)Dialog的特点 1)拥有最多的数据库 系统本身拥有数据库仅600个,专业面覆盖各学科各领域的各个方面,此外还拥有DATASTAR系统的350个数据库,其中169个数据库为DIALOG系统所没有的。 2)拥有的用户数量最多 系统除了与TYMNET和TELENET两个国际公用数据网连接外,在美国国内使用UNINET数据网和DIALNET数据网,在英国和日本建立专用线,用户遍及全世界。在我国,基本上每个省市的科技信息研究所和许多大专院校都拥有DIALOG检索终端。 3)服务项目较多 系统提供商业信息检索、电子邮件、定题检索、联机原文订购

90、、数据库选择、多库同时检索、光盘系统、联机检索通信软件等。 4)检索模式较多 菜单式检索:适用于新用户或不太经常使用的数据库; 命令式检索:为常用的检索模式,提供各种独特的检索命令。 目标检索:适用于全文数据库检索,提供基于相关度排序; WWW检索(http:/www. DALOG. com):适用于因特网上运行的面向科技人员的简易检索界面。DIALOGSITE使用简介1 执行检索1)登录DIALOGSITE所在的服务器。2)选择要检索的Dialog光盘数据库;选择多个库时,同时按下Keyboard CTRL键。3)然后按OK。4)在检索字段中输入检索词,然后按OK (对于单个或同类数据库的检

91、索,可点击检索字段栏后的索引按钮INDEX,通过索引来选择检索词。)2 修改检索结果1)选中您想修改的己存在的检索结果(S的。2)在一条检索字段中输入检索词(或点击检索字段栏后的索引按钮,通过索引来选择检索词。)3)选择点击下面所列的用于修改检索的按钮之一。举例来说,点击“NARROW”键可将您检索的记录范围缩小,检索记录会包含您第一次所选的检索词AND您这次新选的检索词。点击以下绿色按钮:Search for item 1 AND item 2(缩小检索范围) “NARROW”Search for item 1 OR item 2(扩大检索范围)“WIDER” Search for item

92、 1 and NOT item 2(去掉部分检索范围)“EXCLUDE”3 合并检索结果1)首先需要有两个或以上的检索结果(S1,S2,S#等等)。2)在检索结果历史栏中选择您要合并的检索结果(S1,钮,S的,选择时同时按下KEYBOARDCTRL键。3)选择点击以下所列的合并检索按钮之一。举例来说,按“Intersect”键可以建立一个新的检索结果将Sl AND S2共同合并,检索记录会包括S1和S2检索词。点击“土黄色”按钮: Combine S1 AND S2(共同合并)“Intersect” Combine S1 OR S2(扩充合并)“Union”4 浏览索引INDEX方法 点击:浏

93、览索引词表 “Index” 浏览索引词表往前部分LEFT ARROWS “ ” 浏览索引词表往后部分RIGHT ARROWS “” 直接跳至您所需要的索引词表部分 “Jump To” 选择索引词进行检索 “Search”5 显示记录 点击:显示检索到的记录 “Display” 只显示检索到的记录标题 “Title List” 显示馆藏资料 “Holdings” 显示图表GRAPHICS ICOM 创建您自己的显示格式 “Format” 按照指定字段排序 “Sort” 显示下一条记录RIGHT ARROWS “” 显示前一条记录LEFT ARROWS “ ”6 打印和保存记录 1)首先作好检索,

94、选好检索结果(S1,S2,S#)。 2)点击 “Title List” 3)选中想打印的记录,选择多个记录,请同时按下Keyboard CTRL键 4)点击 “Display” 5)在浏览器(Netscape或IE)菜单上点击FILE/PRINT打印记录。 6)在浏览器(Netscape或IE)菜单上点击FILE/SAVE保存记录。您可选择用扩展名为.HTM来保存记录,以便再用浏览器来打开保存该记录的文件或者用扩展名为.TXT来保存记录成文本文档。HELPHELP 请随时在DULOGSITE检索页面上点击HELP查看用户指南。点击检索界面上问号图标可获取数据库特定字段或索引之详细介绍。说明:1

95、)上海交通大学DialogSite网上光盘服务器访问地址: http:/ or http:/202.120.13.18/Webcd/cgi.exe2)当用户进入DialogSite查询系统,十五分钟内没有查询或做任何工作,需关闭浏览器,重新启动查询系统。用户完成了查询任务,请按LOGOUT键,退出DialogSite查询系统。 Dialogsite使用手册使用手册-以用户名方式以用户名方式登陆登陆1. 1. 登陆过程登陆过程2. 2. 记录简单查询的实现记录简单查询的实现3. 3. 记录高级查询的实现记录高级查询的实现4. 4. 记录范围限定的实现记录范围限定的实现5. 5. 记录排序功能的实

96、现记录排序功能的实现6. 6. 显示格式选用功能的实现显示格式选用功能的实现在此输入用户名密码进行登陆如果已设置IP地址段,无需输入用户名和密码,按此按钮登陆即可登陆过程登陆过程回首页回首页回首页回首页这是用户可以检索的数据库列表,可以选择需要的数据库进行检索12选择开始搜索提示:可以同时按住Ctrl键点击进行多库选择查询记录简单查询的实现这是所选数据库以下是搜索界面提示:默认的检索界面只包含最基本的检索输入框,如需输入检索更详细的内容需点击高级查询按钮这是所选数据库以下是搜索界面在“检索“字段中输入mp3作为检索词第一步提示:在“检索”字段中查找即代表在下列所有字段中查询按检索按钮开始查找在

97、本数据库中找到18条关于MP3的记录第二步按“标题列表“按钮把18条相关记录的标题显示出来以便于选择18条记录的标题显示在下列区域第三步按CTRL键点选1,4,7条记录;然后按“显示内容“按钮显示1,4,7条详细内容这是显示记录详细内容的页面(包括标题、作者、发布年份等内容)第四步回首页回首页回首页回首页记录高级查询的实现为了从记录集中提取关于mpeg方面的记录,可以先点击Word/Phrase Index旁的索引按钮第一步下方列表框就是主题词索引,其中右边文字部分是相关主题词左边是相应主题词所对应的记录数。然后通过文本框中输入mpeg,点击“转到”按钮来定位到有关mpeg主题词的列表框第二步

98、如箭头所示,输入了mpeg之后,相应的跳转到了有关mpeg的列表项随后选中256条有关mpeg的列表项,点击应用,生成记录集第三步记录集视图中增加了刚才生成的有关mpeg的记录集,现在共有两个记录集(s1 and s2) 大型数据库检索系统:FirstSearch OCLC联机计算机图书馆中心创建于1967年,是一个非赢利的,成员制的在线计算机图书馆服务和研究机构,同时它也是世界上最大的图书馆和信息中心网络,提供集参考咨询、馆际互借和文献传送于一体的联机信息检索服务系统。目前全世界有55个国家12000多个大学和研究机构及公共图书馆使用这个系统,其用户数量以15%的速度迅速增长。 First

99、Search是其中的检索服务系统,通过一个简单适用的界面,可完成对OCLC 馆际互借系统的无缝访问,实现了对八十多个最常用的数据库的联机全文共享,其中包括7500种期刊的文本全文和2200种期刊的联机电子映像。内容几乎覆盖了所有的学科领域,数据库有全文、文摘、书目名录、统计资料、新闻时事和超文本等类型。 成为一个综合的、以Web为基础的联机参考服务系统,提供给用户一个便捷、易于使用、世界范围的参考资源。 网址:http:/www.ref.oclc.org:3503FirstSearch国内专线免费检索途径: 教育部“211工程”的CALIS中心计划并支付经费,采用年购买方式,已购买了13个数据

100、库的年使用权,可共同使用14个“并发用户”免费检索。在清华大学设置代理服务器,其专线的网址: (http:/firstsearch.global.oclc.org/FSIP)无需国际通信流量费)或(http:/firstsearch.oclc.org/FSIP)(通过因特网)可以在“211工程”的61所高等院校的校园网的任意一台计算机上检索,直接通过专线,不需支付流量费和检索费。 需要注意的是: 用户在使用OCLC国内专线免费检索数据库时,经常会遇到这种情况:当键入网址后,屏幕显示是授权号和口令屏幕,且在屏幕中间出现一个紫红色条带,显示的信息是: The number of simultane

101、ous users for consortia has been exceeded.Please.try again 其意为:订购的14个并发用户数已满,不是用户检索有问题,请稍后再登录使用。可供选择的11个数据库FirstSearch检索式的构造l利用索引表或下拉表构造检索式l利用标识符构造检索式 主要运用于FirstSearch中的专家检索,标识符包括: “au:”-author “su:”-subject “ti:”-title “nt:”-notes “pb:”-publisher “sh:”-subject heading “kw:”-keywords l单标识符检索式:例如:ti:

102、preservation n informationl多标识符检索式:例如:au:,su:,nt:economicsl固定短语(或称准确短语)检索式:例如:au=yuxiangl有顺序和间隔距离的检索式 N ? 指明两个检索词中任何一个可先于另一个出现 W ? 指明先键入的词必须先出现 例如:kw:information w preservationl 组合检索式:用算符AND、OR 和NOT把检索词组合起来l 检索式中的复数标识 (+)例如: 检索式中的词 实际检索的词 coach+ = “coach,coachs,coaches”l 检索式中的截断符 (*)l 检索式中的通配符(# 和 ?

103、) # : 代表一个字符。 ?: 代表零个或任意个字符主要检索步骤:1)编写检索表达式:在分析课题检索要求的基础上,按照概念间的逻辑关系正确地编写出检索提问式。 2)进入系统:连接到OCLC主页,输入授权号和口令,即可进入。3)选择检索主题:在显示的14个主题的菜单中点击所需要的主题。 4)选择数据库:在显示一组与该主题有关的数据库名称上做出选择。也可使用联机帮助,查询和获知每一数据库的具体信息。 5)选择数据库检索方式:可以通过联机帮助查阅与自己所选数据库相匹配的检索方式和检索标识符。选择基本检索或高级检索,并根据检索要求选择主题、题名、作者或选用其他检索类型。 6)输入检索式:在提供的空白

104、处输入检索式,点击“Start Search”。7)浏览和选定命中结果:以十个记录为一屏显示命中记录的内容。可点击各种符号来继续浏览和选定相关记录。 8)订购文献拷贝:如是全文数据库,则可直接阅读全文,或点击“Library With Item”查看拥有该文献的单位列表,以便要求系统以电子邮件形式将全文送至用户的电子信箱或用打印机打印出来。 FirstSearch可以联机检索八十多个最常用的数据库,几乎覆盖了人类知识的所有学科,共分成14个主题范畴,用户可以通过WWW浏览和查阅这些数据库中的电子文献,其中包括文献全文、图表、图像和方程式,并通过联机方式订购所需的文献。它们是: 1)Arts &

105、 Humanities 艺术和人文; 2)Business & Economics 商业和经济; 3)Conference & Proceedings 会议录; 4)Life Science 生命科学; 5)Public Affairs & Law 公共事务和法律; 6)Education 教育 7)Medicine & Health Sciences 医学和保健 8)General & Reference 综合参考; 9)Consumer Affairs & People 消费者事务; 10)General Science 一般科学; 11)News & Current Events 新闻时

106、事; 12)Engineering & Technology 工程技术; 13)Social Sciences 社会科学; 14)General database 综合性数据库1 1)基本检索(Basic Search) 又称指令检索。如果需检索课题的主题概念单一,或表达课题概念间逻辑关系比较简单,则可以选择这种检索方法。 可在基本检索界面检索对话框中输入检索式。可做字段选择。如果用户不作选择,系统则默认在文摘字段中检索。2 2)高级检索(Advanced Search) 使用该种方法用户无需在检索界面上输入逻辑算符、语种和年代限制等符号,只需在系统提供的“Search For”检索对话框中输

107、入检索词,选择所需的布尔逻辑算符、语种、年代和文献类型等以及相应的限制字段,即可执行检索。 执行检索时,先在高级检索界面上的“Search For”后的检索对话框中输入第一个检索词,接着在“Index”下面的字段下拉列表框中选择所需检索的字段;其次,在左侧的逻辑算符列表框中选择所需的逻辑算符,然后输入第二个检索词,并作字段选择,按上述方法一次输入整个检索式。通常,系统不允许超过两个“OR”运算符的检索表达式。以上步骤完成后,可点击“Start Search”图文框,系统即进行检索运行。First Search的检索策略 每个数据库都提供一些专门的检索方式和检索类型,可以通过“帮助”页面查看。但

108、系统使用的基本检索策略是一致的。策略的构成方法主要选词(包括从主题词表中选词)、逻辑算符、位置算符和字段限制等。 1)Wordlist主题词表 每个数据库都有其Wordlist。用户通过查询该表,可以检验一个词或词组是否在数据库中;该数据库含有该词的记录有多少,即了解其词频,还可以检查一个固定短语的确切的词和标点符号。 主题词表按字母顺序排列,右边是词或词组及短语,左边小括号内是词频。 2)逻辑算符:该系统的布尔算符为OR、AND、NOT。 3)位置算符:N(NEAR)和W(WITH),用法为: N 两检索词间可插N(N=12,正整数)个词,且两词的词序可变。 W 两检索词间可插N(N=12,

109、正整数)个词,且两词的词序不变。位置算符使用举例见表要找的文献主题中希望包含的检索词检索策略Computerapplication或applicationcomputersu:computerNapplicationOnlinesearching而不是searchingonlinesu:onlineWsearchingPlanofattack或attackplansu:planN1attackHeadofoffice或headoftheofficesu:attackN1plan或su:headW2officeWarandpeace或deathbenotproudsu:warW1peace或ti

110、:deadW2proud4)字段限制 标识符用两个缩写字母。它表示在数据库中记录的字段。例如:TI:EDI(检索词在题名中)、SU:influence or market(检索词在主题中)、LA:English(检索结果的语种限定为英语)等。 5)多字段同时检索和短语检索 在该系统的Search界面上有一个Search For区,在这后可输入标识符和单元词、短语或人名。其检索式的形式有四种。单标识符(Lable)检索式 格式:检索标识符:检索式 功能:单一检索式在单一字段中检索。如检索策略au:Louisa ab: bus,其结果为在au字段中含有Louisa的文献或在ab字段中含有bus的文

111、献都为命中文献。 多标识符(Multiple Lable)检索式 格 式:检索标识符 1:检索标识符 2:检索标识符 3:检索式 功 能:同一检索项在多个标识符字段中检索 例 如:要在au,su,ab字段中查含有louisa may alcott的文献 检索式:au:,su:,ab:,louisa may alcott 结 果:在au,su,ab,字段中,含有louisa may alcott的文献为命中文献 固定短语(Bound-Phrases)检索式 要想看某个数据库所有作为固定短语的可检索字段,通过该库的Help中的Bound-Phrase search即可查到。检索前,一定要在Word

112、list中查看所要查的固定短语是否存在。格 式:检索标识符 = 固定短语检索式功 能:在单一标识符字段中查找含有固定短语的文献例 如:在au作者字段中检索含有作者名为dunne john g的文献检索式:au = dunne,john g 辅助字段限制性检索(limit the search) 辅助字段限制性检索有出版的年份、文献的类型和出版语种。每个数据库都可以限制检索,如在WorldCat库中限制性检索的种类。FirstSearch检索实例分析(文科) 检索课题:有关实现EDI对商业零售业影响方面的研究 检索步骤:1)根据课题涉及的主题内容,选择关键词为: EDI,market,retai

113、ler,retail store,influence 根据概念间的逻辑关系组配起来,编写下列检索式: (retail w shop or retail w store)and EDI and (influence or market)2)联机进入FirstSearch主页。输入授权号和Password,进入数据库 主 题 范 畴 界 面 , 在 14个 主 题 范 畴 中 选 择 “Business & Economics”随后系统便会显示出属于该范畴的全部数据库名称和内容简介。3)选择“Bus Dataline”商业信息数据库,出现基本检索查询窗口。4)输入检索式,点击“Start Sear

114、ch”,系统开始检索。5)对显示的记录进行选择并做出标记。6)点击“Library With Item”,即可获知哪些图书馆收录这些记录的期刊。7)可以采用高级检索对检索词作字段限制。例如: TI:EDI(要求检索词出现在题名中)、SU:influence or market(要求检索词出现在主题中)、LA:English(要求检索结果的语种限定为英语)等。这样显示的检索结果就少多了。8)选择浏览器主窗口菜单栏中的“保存”项即可保存检索结果。9)无论在基本检索或者高级检索的界面中,在输入检索词后都设有“Browse Index”,其作用是:A:检验数据库中是否有该词或词组;B:检查检索词的拼写

115、或变形词的拼写是否正确;C:检查构成固定短语的确切的词和语法关系(标点符号);D:查看数据库中包含检索词的记录数量。 因此,在正式进行检索之前,充分利用功能,调整好检索词和检索策略可以提高检索的成功率。FirstSearch检索实例分析(理科) 检索课题:有关晶体辐射方面的文献 关 键 词: crystallization crystal radiation 国内专线数据库的检索步骤:1)编写检索式:crystallization or(crystal and radiation)2)选择主题范畴:进入系统后,根据检索课题从显示的15个主题范畴和12个数据库的基本检索窗口,选择WilsonSe

116、lectPlus数据库。3)提交检索式:在检索框内输入检索式;4)选择数据库:产生一个命中记录的数据库集合,屏幕显示WorldCat中有2600条记录;ECO中有220条记录;WilsonSelectPlus中有42条记录。选择WilsonSelectPlus。5)浏览命中记录一览表,选定所需记录。6)获取全文:点击Full Text可看到全文。7)继续其他的检索,或退出FirstSearch检索过程。FirstSearch相比于检索引擎的特色1)易于获取联机全文 FirstSearch数据库中全文的类型包括:全文数据库的ASCII文本全文、 ECO 库的文本全文、 ECO 库中的映像全文、来

117、自被链接的Internet资源的文本全文以及OCLC标识出的用户所在馆的全文。它从以下几个方面保证用户易于获取联机全文: FirstSearch实现了和OCLC ECO (联机电子出版物)的完全整合,检索到全文记录,不管是文本的还是电子映像的都能获取到。 在数据库列表中对全文数据库进行了标识,使想获取全文的用户易于选择数据库,以便从中获取全文。 各数据库间实现了全文共享。某个数据库检索到的记录如在其他可用数据库中包括联机全文,在记录表后有标识,能立刻获取。 在用户提交检索式时,可使用限制功能仅检索包括联机全文的记录,也可使用限制功能仅检索本馆已拥有的纸介质文献。 在记录表中有用户所在馆的馆藏标

118、识,便于从当地获取全文。 提供了一个高质量的Internet资源库(NetFirst),使用户能从Internet上获取全文。 与OCLC ILL(馆际互借)的无缝链接,使用户在检索的同时可直接通过提交馆际互借申请单,通过馆际互借系统获取全文。2)强大的检索手段 帮助用户挑选数据库;最多可同时检索3 个数据库;对全文数据库进行标识。 提供基本、高级和专家三种检索界面、可预先定义检索结果的排列方式、从检索的记录表可直接再进行扩展、限制等二次检索。 检索到的全文有标识;可对检索结果进行分类显示;可进行主题词浏览;可对记录的主题词和作者进行热链接等。 数据库按内容不同而设置了不同的检索点,一般有十几

119、个。这些检索点除了包括用户常使用的题名、作者、主题词、文摘、刊名等外,还根据数据库的特点设置了其他的检索点。 目前管理模块主要包括三个功能:显示帐号信息、 进行检索系统参数设置和数据库参数设置。 至今OCLC 共收录了7.5亿多个馆藏点。如果检索到的文献没有联机全文,用户可通过系统设置的功能得到一个拥有文献的图书馆名录,方便用户选择合适的图书馆通过联机的馆际互借获取原文。 开放时间长,从周一至周六全天24小时开放,周日除凌晨的4个小时进行系统维护外,其余时间全部开放。可以通过可以通过不同的主题范不同的主题范畴选择较适合畴选择较适合的数据库。的数据库。主题选择下主题选择下拉列表拉列表相应主题的相

120、应主题的数据库数据库适合适合Biography主题的数据库主题的数据库有两个有两个特色之一:就是通过搜索词与搜索主题的结合,来选择最适合的数据库。检索标示的选择指明两个检索词中任何一个可先于另一个出现指明搜索的主题范畴显示相应的数据库以及所含有相关检索对象的记录数量指明先键入的词必须先出现可见,用“w”所检索出的文章数小于用“n”。.最多可选择3个数据库,按此进入高级搜索界面多媒体检索:图像检索多媒体检索:图像检索l媒体(medium)是指信息的载体,它可以是文本、图形、图像、音频和视频等。l多媒体是指将多种信息媒体进行计算机集成处理的技术,是由文本、图形、图像、音频和视频等多模态交互融合形成

121、的。l多媒体信息检索指通过分析多媒体信息中的视觉和音频特征,以达到查找视觉和听觉上相似内容的目的。 未来的互联网是多媒体数据的时代。图像、视频将很快取代文本成为互联网上主要的信息,现在基于文本的搜索将逐步被多媒体检索取代。1依据文字描述的图像信息检索技术主要是通过对图像的物理特征和内容特征进行人工分析、文字著录和标引、建立数据库,所标引的图像特征包括责任者、出版日期、描述图像所含对象的关键词/主题词、解说文字或图像的物理特征(如拍摄方式、长度、载体规格等),检索方法与文本信息检索类似,可选择具体特征类别,输入相应的检索词来检索图像信息。例如检索词为“达芬奇”就可以检索到其所有的作品和相关信息。

122、具体有四种方法:1)对文件扩展名和超文本标识符(tag)的利用。图像文件的扩展名为:.gif、.jpg,影像文件的扩展名为:.mpg、.mpeg、.avi、.moov、.vbs等,声音文件的扩展名为:.wav或.au等。因此在支持URL字段检索的检索工具中,可输入对应的文件扩展名来检索图像信息,如:url:www.liu.edu/logo.jpg。此外,凡是在超文本文件中直接显示的图像,都必须通过标识符进行标识,人们可以利用这一特点借助于相应的检索工具检索图像信息。 但是依据文件扩展名和超文本标识符的检索方法只能保证检索到的信息是图像,而图像的具体内容则由文件命名的千差万别而不易区分。例如:同

123、样是关于“长城”的图像,有的以“greatwall.jpg”为文件名,有的则以“gwall.jpg”、“greatw.jpg”、“gw.jpg”等命名。 2)对图像标题和文字解说的利用 如图像标题本身含有“图片”字样,图像的文字解说包括的内容更丰富。此外,在超文本文件中的IMG标识符中,设立ALT选择符,也可以作为检索图像信息的依据。例如:ALT=“Niagara Falls”表示在该处原应是一幅尼亚加拉大瀑布的图片。3)WWW的标题 若WWW标题能恰当概括和反映网页内容,而网页所收录的内容又是图像信息时,如纽约大都会博物馆美术作。4)对图像内容的人工标引(如关键词/分类号等)主要检索工具:

124、AltaVista:高级检索界面上,在布尔检索输入框中利用“url”、“image”这两个字段实现静态图的检索。检索前提是知道图像文件的文件名。例如“image:train”、“image:train and oriental”HotBot:在其高级检索界面(MoreSearchOptions)提供三种图像检索方法:1)选择与图像检索的相关部分:如“image”、“audio”、“video”、“shockwave”,如要检索影像信息,选择“video”项即可;2)在“文件扩展名(Extension:)”项输入相应的扩展名,如.gif;3)借助于其字段检索,如“feature:image”、“

125、feature:audio”、“feature:video”等,可以检索出相同的结果;其他检索工具有:百度识图(百度识图(https:/ 基 于图像内容查询系统,。在这个最新版的系统中,基于文本的查找方式和基于内容的查找方式相结合,共同完成查找功能。根据色彩特征搜索图像根据形状特征搜索所图像关键词输入高级检索分类检索基于文本的图像检索方法就是使用文本(一般是关键字)对图像进行标注,标注文字是对多媒体予以内容的精炼描述。最初的图像检索就采用这一方式,但由于文本描述图像信息存在主观性和开销太大等局限性,这种检索方法正逐步被基于内容的图像检索技术所取代。但目前,由于新技术还不成熟,基于文本的图像检索

126、的结果相对较令人满意。基于文本的图像检索输入“sunflowers”以搜索法国画家高更的向日葵为例,进行检索。得到两幅关键词中包含“sunflowers”的图像搜索结果。如果想得到更准确的搜索结果,可使用高级检索工具。自动提供的相关的搜索结果高级检索高级检索:通过添加了作者、年代、主题、类型等字段,对检索范围进行限制,用户可以任意选取其中几个字段进行组合使用,从而提高查准率。第一步:首先对所要查询的艺术作品进行所属种类的选择。这相当于首页中的分类检索。主要分类有:绘画、考古发掘物、戏剧服装、珠宝、应用艺术、陶瓷制品、兵器和盔甲、家具和马车、纺织品。第二步:然后要再次对艺术作品所属大类进行细分,

127、将检索范围所得更精确。这里以选择“绘画”为例。作者就读学校作品风格作者的国籍主题类型作者的身份年代最后一步就是选择QBIC提供的检索字段对所要查找的图像进行组合标引,这样往往能排除那些与所需图像无关的内容,从而得到较理想的检索结果。这里选择作品名称、作者、国籍和年代范围作为检索条件。作品名称得到的结果比普通的关键词检索结果缩小了,真正找到了所要寻找的由法国画家高更1901年所画的向日葵。2 依据图像内容特征的图像检索技术 图像特征是包括图像的画面内容特征(如图像颜色分布、纹理结构、轮廓等),主题对象特征(如所描述的人、车、建筑等),著录特征(例如作者、时间、地点及其它物理特征),及移动和组合特

128、征(如影像中反映的场景)。 检索原理:主要依据图像的画面内容特征和主题对象特征(即图像的实际内容)来标引和检索。这种技术依靠计算机自动抽取图像特征和编制特征索引,检索时依据用户输入的图像某一特征(例如绘制的草图、轮廓图或调用的相似图像)自动比较特征索引库中的对应特征信息,将最佳的匹配结果和相关信息输出。 传统图像检索将注意力局限在图像的著录特征上,因此不能充分揭示和描述图像中有代表性的画面内容特征,人工特征描述又容易带主观性,且处理速度慢,在检索中也不能充分利用各种特征,事先人们没有注意到的特征将被完全忽略。待查图像内容特征分析抽取特征信息标引特征匹配计算相似度特征分析抽取特征信息标引特征信息

129、索引库图像数据图像索引库图像检索按相似度排列的检索结果集 检索原理示意图注释: 检索系统根据图像内容的类别进行内容特征分析,建立基于内容特征的标引信息(例如图像色彩矢量),将其存储在特征信息索引库里,并将这些索引与实际图像数据联系起来。用户在系统辅助下通过规定色彩比例、选择或描绘对象形状、选择或描绘纹理结构、选择范例图等形式构成自己的图像内容,检索系统再用同样的方法对用户输入的图像内容进行特征分析,建立检索特征索引,并依此检索特征信息索引库,将那些特征信息索引与检索特征索引足够相似的图像检索出来。实际上,这是对用图像内容特征表达的检索提问和被检索提问之间相似性的计算过程。无论采用哪一种特征类别

130、,检索结果一般以略图、图像URL或含有图像信息网页的URL的形式出现。检索原理示意图 1)基于颜色特征的检索颜色特征是图像检索中所使用的最可靠的视觉特征,已广泛应用于图像检索。其基本思想:将图像间的距离归结为其颜色直方图间的差异,从而图像检索也就转化为颜色空间直方图的匹配。直方图的横轴表示颜色的等级,纵轴表示在某一个颜色等级上具有该颜色的像素在整幅图像上所占的比例。把查询图像颜色直方图与图像库进行匹配产生查询结果。但是,单纯的基于颜色直方图的图像检索方法没有保留原图的空间信息,毫无疑问是不够准确的。采用直方图特征计算比较简单,但它不能反映图像中对象的空间特征。两幅颜色直方图非常相近的图像其内容

131、可能毫无相似之处。因此在基于颜色的图像检索中引入空域信息对于确保检索精度是十分必要的。 除了颜色直方图之外,其他的一些颜色特征表示方法有颜色矩(Color moments)、颜色集(Color sets)。作为视觉特征之一的颜色特征是在图像检索中应用最为广泛,因为颜色和图像中的物体或场景密切相关。此外,与其他的视觉特征相比,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较高的稳定性。检索步骤:检索步骤:1、用鼠标在调色板上选取所要的颜色。2、点击添加按钮在下方添加颜色。3、上下滑动带三角标记的标尺来调整颜色的百分比。4、重复以上步骤直到颜色桶种添满颜色,然后点击搜索。选择所要颜色选

132、择所要颜色 开始查找开始查找查找结果查找结果2)基于形状特征的检索形状特征是指整个图像或图像中子对象的边缘特征,采用该特征进行检索,用户可通过勾勒图像的形状或轮廓,从图像库中检索出形状相似的图像。基于形状特征的检索方法有两种:A:分割图像经过边缘提取后,得到目标的轮廓线,针对这种轮廓进行的形状特征检索;B:直接针对图像寻找适当的矢量特征用于检索算法。例如:将图像分块,把每个块看成是一幅小图像,计算每个小图像的颜色直方图特征,则每个块间的直方图是不同的,将相邻两块构成一个比较对以便于分析边缘特征,记录每个块间差值,同时记录差值在一定范围内的数目,这样形成一个颜色特征差值表。当图像内对象的空间位置

133、发生变化时,其特征差值表也随之不同。因此,利用颜色特征差值表可进行基于形状的图像检索。形状特征的表示方法,有轮廓特征和区域特征。轮廓特征用到物体的外边界,而区域特征则关系到整个形状区域。检索步骤:1、用鼠标在调色板上选取所要的颜色。2、选择任一种形状的工具。3、将选定的形状画在画板上,调整好大小。4、重复以上步骤,直到画出你满意的图像的形状和颜色。然后点击搜索。输入大致形状输入大致形状查找初步结果查找初步结果最终选定所需图像最终选定所需图像3)基于纹理特征的检索纹理:物体内部的灰度级变化明显且又不是简单的色调变化,它是所有的表面具有的内在特征,包括云彩、树木、砖、头发等等,它包含了关于表面的结

134、构安排以及周围环境的关系。纹理特征是一种反映图像像素灰度级空间分布的属性,它适合用来描述和区分诸如山脉、草木、砖瓦、布匹等图像。Haralick等人提出关于纹理特征的共生矩阵表示,该方法探索的是灰度级的纹理的空间依赖关系,首先根据图像像素之间的方向和距离构筑一个共生矩阵,然后从该矩阵中提取有意义的统计作为纹理表述。继小波变换的引入以及其理论框架的建立,许多研究者开始将小波变化用于纹理表达之中 考虑到用户的实际检索情况,一般对纹理的检索都采用示例查询(Query of Example)方式。用户给出一个要检索的图像的例子,然后系统按照这个例子查找与它相似的图像,并将相似结果返回给用户,用户在这些

135、相似的图像中确定或在此选择更接近用户查询的图像,最终达到检索的目的。4)相关反馈(Relevance Feedback)所谓“相关反馈”就是通过人机交互方式在检索结果中标记或者选定用户认为相似的或不相似的图像,系统利用用户提供的反馈信息自动调整当前查询,包括查询矢量优化、自动匹配工具选择和自动特征适应,使之能较好的解决了由用户对图像理解的主观差异性所导致的检索过程中失配问题,即能较好的描述用户的查询要求,提高了查准率。如此不断重复进行,直到用户获得满意结果为止。所以也被称为“自适应图像检索系统”。相关反馈技术可分为两类:1)是利用用户的反馈信息调整相似度量中的一些参数;2)则是从概率的观点出发

136、,利用用户的反馈信息,计算出图像库中每一幅图像符合用户需求的概率,并将概率高的图像作为检索结果返回给用户。 相关反馈技术能根据图像理解、用户反馈进行自动调整。它融合了人工智能技术,是人工智能与信息检索结合的成果。具体来说,体现在以下几个方面: 1)系统能识别出不同的用户对同一检索式所得到的检索结果的不同的相关性判断; 2)系统能自动获取新特征及语义; 3)系统具有学习功能,它能提供一种通用机制,对系统进行训练后能实现自动获取特征。系统结构 如下图所示,一共分为四大模块:查询模块、查询处理模块、存储模块及结果显示模块。下面分别对这四个模块进行介绍:查询说明模块表格说明示例查询说明用户通过例子来表

137、达查询要求,可以是用户选择示例模板或绘制的,也可以是选择库中的某个例子。颜色、纹理、形状、草图均可以作为实例进行查询,系统将从用户的示例中实时提取特征用于检索。向用户提供一致的表格形式形成文本,概念查询,及利用可视SQL语言查询。表格中的每个描述域包括项名,以及可能的描述值。查询处理模块查询处理器图像理解系统相关性反馈这是检索系统中最重要的一部分,包括三个子系统:查询处理器、图像理解子系统、相关性反馈子系统。其功能体现在能根据用户的反馈检索式,在查询处理时,能激励特征抽取组件自动抽取特征。图像存储模块图像及其特征图像语义存储提供了一种集成机制,把图像、特征、语义存储在一起,这样便充分体现了数据

138、库方法的优势:方便共享、冗余控制、事务支持、同步访问、安全与授权等。结果显示模块把检索结果显示出来,方便用户进行浏览。有形图像、图像特征和图像语义图像特征和图像语义的扩展查询处理模块图像阐释子系统相关反馈子系统查询说明模块图像展示相关反馈技术的检索过程相关反馈技术的检索过程阐释 1)初始查询说明 用户查找一个对象时,最初可以用QBE或查询语言来形成一个查询。系统提取示例的特征或把查询描述映设为具体的特征。 2)相似性匹配 同查询处理器将查询特征与特征库中的特征按一定的匹配算法进行相似性匹配。 3)满足一定相似性的一组候选结果按相似度大小排列返回给用户。 4)检索式调整。 对系统返回一组满足初始

139、特征的查询结果,用户可以通过遍历(浏览)来挑选到满意的结果,或者从候选结果中选择一个示例,系统根据反馈子系统进行检索式调整,然后形成一个新的查询。 5)如此逐步缩小查询范围来优化查询,直到用户满意查询的结果为止。运用于图像检索系统中的关键技术 图像在很多方面不同于文本,文本本身就可以说明所要讲的内容,可以用单词来进行检索。图像包括视觉特征与语义特征,所以应直接对图像进行分析,抽取特征,利用这些内容特征建立索引进行检索。此外,对同一幅图片,人们可以按照各自的理解来说明它们所蕴含的意义,因此还必须考虑其语义特征。对于一个图像信息检索系统来说,为了达到较好的检索效果,必须解决以下关键技术。 1)特征

140、描述 特征(即内容)的提取是基于内容的图像检索的基础。就广义而言,特征既可包括文本型的(如关键字、注解等),也可包括视觉特征(如颜色、纹理、形状等)。通过特征提取就把原始的图像(非结构化数据)与高度抽象的图像特征(结构化数据)联系起来了。特征提取可以是自动的,也可以有人工干预。目前从一般的图像中自动提取出关键字还不可能办到,需要人工干预。而视觉特征比语义特征易于自动提取,但能否实现自动提取与图像的复杂程度有关,图像越复杂,就需要人工干预。当图像插入到数据库中或在查询处理中都可实现特征提取。2)数据模型和表示 数据模型(Data Model)是使用基于计算机的符号结构对应用信息模型化。图像信息检

141、索依赖于图像信息的组织形式。计算机中有关图的信息大致可以分为两类:运用CAD/CAM技术所生成的计算机图形信息与计算机图像信息,前者具有完整的数学模型,也就是说,它们的结构特征是完全可知的,可以通过已知的结构特征,方便、快速的对这些图形进行检索。而对于后者,除了知道其各点信息外,其余一无所知,因此,数据模型主要是描述图像特征。因此必须首先解决图像特征的描述,这正是数据模型所要解决的。3) 查询语言 查询语言实际上是为用户提供一个查询接口。从图像数据库中检索图像所运用的查询语言要求满足直观、易用,与在数据库管理系统环境下的检索不同,基于内容的图像检索是一种不完全、不精确的检索,需要不断修改、完善

142、。4) 系统结构系统结构描述信息检索系统的具体实现,包括图像、图像特征、语义的存储,以及对系统中各个功能构件的控制与协调等。多媒体信息检索:视频检索视频检索就是要从大量的视频数据中找到所需的视频片断。传统的视频检索只能通过快进和快退等顺序的方法人工查找,因而是一件非常繁琐耗时的工作,这显然已无法满足多媒体数据库的要求。用户往往希望只要给出例子或特征描述,系统就能自动地找到所需的视频片断点,即实现基于内容的视频检索。和其他信息的检索一样,视频信息检索的主要步骤也是信息处理和检索两个步骤。视频信息的处理基于内容的视频处理包括很多技术,如视频结构的分析、视频数据的自动索引和视频聚类。视频结构的分析是

143、指通过镜头边界的检测,把视频分割成基本的组成单元镜头;视频数据的自动索引包括关键帧的选取和静止特征与运动特征的提取;视频聚类就是根据这些特征进行的。镜头边境的检测镜头是视频数据的基本单元,所以首先要把视频自动地分割为镜头,以作为基本的索引单元,这个过程就称为镜头边界的检测,它是实现基于内容的视频检索的第一步。镜头切换时,视频数据将发生一系列的变化,表现在颜色差异突然增大、新旧边缘的远离、对象形状的改变和运动的不连续性等方面。镜头边界检测的目的是寻找这些变化的规律。可以通过计算帧间差的方法识别镜头的切换,同一个镜头内的各帧之间差异较小,而不同镜头的帧间差异较大。镜头边界检测方法可分为模板匹配法、

144、直方图法、基于边缘的方法和基于模型的方法等4种。关键帧的选取 关键帧是用于描述一个镜头的关键图像帧,它反映一个镜头的主要内容。关键帧的选取一方面必须能够反映镜头中的主要事件,因而描述应尽可能完全准确,另一方面,为便于管理数据量应尽量小,且计算不宜太复杂。关键帧的选取方法很多,比较经典的有帧平均法和直方图平均法。帧平均法是从镜头中取所有帧在某个位置上像素值的平均值,然后将镜头中该点位置的像素值最接近平均值的帧作为关键帧;直方图平均法则是将镜头中所有帧的统计直方图取平均,然后选择与该平均直方图最接近的帧作为关键帧。这些方法的优点是计算比较简单,所选取的帧具有平均代表意义。缺点是,从一个镜头中选取一

145、个关键帧,无法描述有多个物体运动的镜头。特征提取一般镜头是视频检索的最小单位。视频分割成镜头后,就要对各个镜头进行特征提取,得到一个尽可能充分反映镜头内容的特征空间,这个特征空间将作为视频聚类和检索的依据。视频数据的特征分为静态特征和动态特征。1)静态特征提取 静态特征的提取主要针对关键帧,可以来用通常的图像特征提取方法,如提取颜色特征、纹理特征、形状和边缘特征等。 2) 运动特征提取 运动特征反映了视频数据的时域变化,而且往往是用户检索时所能给出的主要内容,因而对视频数据进行特征提取必须研究其运动特征。摄像头的运动往往会给视频图像带来全局的影响,例如水平移动镜头会使所有的像素点也水平移动。在

146、只有对象运动时,大部分背景像素不变,而只是运动对象和被遮挡的部分会发生变化。由于运动特征无法从一幅静止图像中获得,故必须对视频序列进行分析。视频聚类 视频聚类是研究镜头间的关系,也就是如何把内容相近的镜头组合起来。根据聚类目的的不同,视频聚类可分为两类:一类是把同属一个场景的镜头进行聚类,以形成层次型的视频结构场景和电影。这种聚类不但要考虑镜头内容上的相似性,还要考虑其时间上的连续性,也就是说,虽然两个镜头内容很接近(特征向量之间的距离很小),但如果它们在时间上相距得很远,就不能认为它们属于同一个场景。另一类聚类是对视频进行分类。它只考虑特征相似性,而不考虑时间连续性。根据镜头的重复程度,视频

147、一般可分为对话型、动作型和其它类型3类。对话型视频是指一段实际的对话或者象对话一样由两个或多个镜头重复交替出现的视频。动作型视频则反应故事的展开,镜头不是固定在一个地点或跟随一个事件,因而很少发生镜头的重复。视频信息的检索 视频可用幕、场景、镜头、帧等描述。视频信息的检索方式目前主要有三种。1)基于关键帧的检索 是对代表视频镜头的关健帧进行检索。关键帧是用于描述一个镜头的关键图像,可以采用类似图像检索的方法来进行检索。一旦检索到目标关键帧,用户就可利用播放来看它代表的视频片断。2)基于运动的检索 是基于镜头和视频象的时间特征来检索,是视频查询的进一步要求。可以查询摄像机的移动、操作和场景移动,

148、以及用运动方向和运 动 幅 度 等 特 征 来 检 索 运 动 的 主 体 对 象 。3)基于内容的视频检索 用途非常广泛,包括新闻视频信息的检索、各类比赛节目的检索、卫星云图变化情况的检索等等。随着视频内容的增多和视频生成技术、拍摄技术的提高,研究内容将更广泛。多媒体信息检索:声音检索声音可以承载很大的信息量,是我们生活和工作中一种不可或缺的信息媒体。基于内容的声音检索有基于音调、音频、音量等多种声音特征的检索。1)赋值检索用户指定某些声学特性的值或范围用于检索。例如,检索所有特性值p0大于0.9和特性值p1小于0.2的声音。2)示例匹配检索用户提交或选择一个示例声音,针对某个或某些特性,检

149、出所有与示例相似的声音3)浏览检索法用某种或某些特性对声音分类或分组,把声音的内容分割成若干可独立利用的节点,即可以任意顺序通过链路检索到所有相关的信息。 地址、电话、电子邮件等信息的检索 5555- 允许检索电话号码、商家信息的黄页检索、根据人名检索电子邮件地址、居所地址、检索旅馆信息等。还可检索到澳大利亚、加拿大等国家的上述相关信息。其“美国Web导航”通过分类和关键词方式可检索到美国本土的各种信息。 Yahoo!People Search/Four11 因美国电话查询台(411)而得名,分为E-mail检索和电话号码查询两大功能。 WhoWhere(http:/) 检索E-mail和电话

150、号码,允许被检索对象的兴趣、工作类型、个人描述等中的关键词来限制检索范围。 Switchboard(http:/) 检索范围:商业企业、电子邮件、寻人、Web资源、地图和线路。信息检索的发展数据挖掘1)数据挖掘的相关知识 数据挖掘是从大量的、不完全的、有噪声的、随机的数据中,提取潜在有用的信息和知识的过程。数据挖掘源自人工智能的机器学习领域,是在一个已知状态的数据集上,通过设定一定的学习算法,从数据集中获取所需的知识。这些知识能够用于信息管理、智能查询、决策支持、过程控制以及其他方面。数据挖掘的最初对象是一些大型的商业数据库,它通过描述数据、计算统计变量(比如平均值、均方差等),并将这些变量用

151、图表直观地表示出来,进而找出数据变量之间的相关性,即发现知识,以提供解决问题的依据。随着数据挖掘技术在商业数据库中的成功应用,它又被迅速移植到电信、医疗保险等领域,因特网的出现为它提供了一个更为广阔的用武空间。借用数据挖掘的原理来实现网络数据的深层挖掘,发现并组织网络知识,是将网络信息检索技术推向智能化高度的有效手段。数据知识发现(KDD. Knowledge Discovery in database) 是伴随着数据仓库技术的发展而逐步完善起来的,主要是为了处理大量的模糊和随机数据,进行统计、分析、综合和推理,寻找其后隐含的规律性及事物间的相互关联,对未来的活动进行预测,同时将其模型化,来完

152、成辅助决策的作用。 在信息量极大丰富的Web资源中,蕴含着大量潜在的有价值的知识。搜索引擎只解决了信息检索的问题,无法满足对Web数据的知识发现。因此,比信息检索层次更高的新技术 Web知识发现(KDW. Knowledge Discovery in Web)成为更有实际意义的研究方向。数据挖掘和Web挖掘的区别 数据挖掘面对的是结构规范化的数据库,如关系数据库的二维表结构,有统一的格式,其中的数据为完全结构化的数据,而Web资源是异构的、多为半结构化或非结构化的文档、图形、图像、声音等,体现了动态性、不完全性、混沌的特点和巨大的、分层的、多维的方式,不能清楚地用数据模型来表示。 Web挖掘与

153、信息检索的主要区别 信息检索是从大量的文档中找到满足需要的信息,检索功能已经从基本的布尔检索、截词检索、邻近检索、短语检索、字段检索发展为高级的加权检索、自然语言检索、相关信息反馈检索、模糊检索和概念检索。其中的大多数检索都与数据挖掘的算法相关,其逼近能力的研究与实现体现了数据挖掘结果的质量。 而Web挖掘是为了揭示文档中隐含的知识,它是比信息检索层次更高的一种技术。但是两者是有区别的,主要体现在: 1)检索系统只能处理以关键词形式表示的简单目标,无法处理样本形式的复杂目标,而Web挖掘则能从文本中提取出目标信息的特征,然后根据目标特征在网络中进行有目的的搜寻。 2)信息检索目的是针对某一特定

154、领域进行信息或文档的收集,可以看作是用于Web挖掘中文档分类的一种情况。 3)信息检索无法发现隐藏在数据后面的联系,而Web挖掘的目的就是将大量看似无关的数据关联起来发现其中的规则和知识以供决策支持。 Web上的知识发现和网络信息检索是两种不同的技术,但在实现技术上却有很多相似之处,Web挖掘技术是信息搜索技术的延伸。Web挖掘的定义WEB挖掘是指从大量以HTML格式存储的异构、半结构、没有结构的Web页面、文档等网络数据中抽取事先未知的、可理解的、最终可用的信息或知识的过程。直观的说,当数据挖掘的对象完全由WEB这种数据类型组成时,这个过程就称为WEB挖掘。 Web挖掘的类型 1)Web内容

155、挖掘(可分为基于文本的挖掘和基于多媒体的挖掘)文本(包括text、HTML等)挖掘是对Web页面信息进行聚类、分类和关联分析,以及利用Web文档进行趋势预测、分析等,其挖掘方法有数据库方法,建立Web数据仓库方法和新近的基于软件Agend的分类器方法、基于概念的文本信息挖掘法;多媒体信息挖掘是对多媒体文档(包括图像、声音、图片等媒体类型)的挖掘,通常采用的方法为关联规则法和特征提取法。 2)Web结构挖掘采用数据抽取和转换的方法将非结构化的Web信息转化或映射为结构化的数据结构,然后就可以采用数据库挖掘技术对Web页面超链关系、文档内部结构、文档URL中的目录路径结构的挖掘。 3)Web 用户

156、模式挖掘用户使用Web获取信息的过程中需要不停地从一个Web站点通过超文本链接跳转到另一个站点,这种过程存在一定的普通性,发现此规律就是Web用户模式发现,包括三种模式,即数据预处理、模式发现和模式分析。WEB挖掘的功能分类 1) Web摘要是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。Web摘要在有些场合非常有用,例如,搜索引擎在向用户返回查询结果时,通常需要给出文档的摘要。目前,绝大部分搜索引擎采用的方法是简单地截取文档的前几行。2)Web分类 是指按照预先定义的分类体系,将文档集合的每个文档归入某个类别。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型

157、,即通常所说的分类器(Classifior)。分类器一般分为训练和分类两个阶段。分类往往表现为一稞分类树。根据数据的值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。目前,Yahoo!仍然是通过人工对Web文档进行分类,这大大限制了其索引页面的数目和覆盖范围。3)Web聚类 与分类的不同在于,聚类没有预先定义的主题类别,根据个体相似性归成若干类别,即“物以类聚”,将Web文档集合分成若干“簇”,且同一“簇”内的文档相似度尽可能大。聚类的结果可用来指导分类Web 挖掘的步骤 1)Web 数据采样 首先从大量Web页面中取出一个与挖掘目标相关的Web子集,通过Web样本的精选,不仅

158、能减少Web数据的处理量,还能突出相关的规律性。Web 数据取样的的代表性和质量尤关重要。 2)Web数据分析 Web数据分析最终的目的是要从采样中分析出多个因素相互影响的关系。这些关系需要经过仔细分析、观察和反复试验,先分析众多因素之间的相关性,再按其相关的程度,以了解它们之间相互作用的情况,重视数据分析呈现出的新关系。由于数据分析是一个反复尝试的过程,因此通过可视化的操作能有效提高Web数据分析的效率。如果数据可行,直接进入数据模型的建立。反之则需要进行数据调整。 3)Web数据调整 在Web数据采样和分析实施之后,就会更加了解Web数据的状态和趋势,需要调整的内容有:1)需要重新采样数据

159、进行分析;2)需要对问题进一步细化,要求来审视Web采样数据集,看它是否适应建立数据模型。也可能按照对整个Web挖掘过程的新认识,组合或者生成一些新的变量,以体现对状态的有效描述。这样才能对下一步WEB挖掘应采用的技术手段就更加明了清晰。 4)建立Web数据模型 这是WEB数据挖掘工作的核心环节,需要采用数理统计方法、人工神经元网络和决策树等多种技术,最常用的主流技术手段是数理统计方法,可以实现对各种不同类型模型、不同特点数据的回归分析,对多种试验设计模型的方差分析,处理一般线性模型和广义线性模型、多变量统计分析、聚类分析、时间序列分析等。 通过这些数理统计工具不仅能揭示已有数据间的新关系和隐

160、藏着的规律性,而且能反过来预测其发展趋势,或是在一定条件下将会出现什么结果。数据挖掘中使用哪一种方法主要取决于数据集的特征和要实现的目标,一般要多试几种方法,从实践中选出最适合的。 Web挖掘工具通常Web挖掘工具主要完成两方面的工作:信息检索和对Web的分析,其主要设计目标是有效地理解Web内容或及时地收集相关Web页面。IBM推出的Web挖掘工具Intelligent Miner for Text,它主要包括三部分:1)高级搜索引擎TextMiner,其最大特点是具有在线更新的能力,即它在执行索引任务的同时无须将搜索进程挂起;2) Web访 问 工 具 包 括 一 个 优 化 的 搜 索

161、引 擎 NetQuestion和WebCrawler,WebCrweler是一个可以在多个Web站点启动的自动机,可以监视WEB的活动并可以变更检索使之更优化; 3)Web分析工具,这部分完成的才是对Web信息的挖掘。它可以独立使用,但将它与Web搜索工具结合使用将能发挥更强大的作用。该软件主要是由信息提取器工具组成,该工具提供了高效的文本信息挖掘,可以实现全文搜索、Web分析、Web文档查询和检索。 Web挖掘的难点1)KDW面对的是一个大而复杂的异构数据环境,若将Web上每一站点看做是数据源,每个数据源都是异构的,各站点间的信息和组织都不一样,如果想利用这些数据进行数据挖掘,那么必须研究站

162、点之间异构数据的集成问题。这是对数据进行分析、处理的基础。 2)面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。所以寻找和定义一个半结构化的数据模型是Web挖掘的关键, 还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。XML数据就是一种自描述的半结构化数据,它支持用户自定义文档标记,用有序的、嵌套的元素组织有一定结构的数据,是面向数据的。它的出现推动了WWW在电子商务、电子数据交换和电子图书馆等多方面的应用。Web数据挖掘系统介绍1 Ahoy!这是一个个人主页搜索系统。用户只要输入个人的姓名以及机构或单位名称等信息,Ahoy!就可在WWW网上

163、找到此人的主页(URL)。 其实现原理是:首先,根据用户输入的姓名等信息,DRS把它传递给元搜索引擎MetaCrawler,MetaCrawler查询后,会返回许多候选主页;DRS还同时把名字传给E-mail目录服务(WhoWhere 和IAF),得到许多E-mail地址(以便于与机构名对比)。然后,利用内部数据库,DRS采用两种类型的过滤器(基于交叉的过滤和基于启发的过滤)将明显不正确的URL排除,剩下的URL则作为候选URL排列在一些称为“桶”的类别中。最后,分别判断候选的URL是否和个人姓名、机构名匹配以及页面和个人主页的相似程度,从而得到最终的个人主页。DRS最关键之处是它的模式抽取,

164、即它能够从成功的搜索结果中抽取某一国家或机构URL的通用模式,并记录下来,供将来使用。这种学习适应能力,使得DRS在使用过程中,能逐步提高精确率和覆盖面。 2 ParaSite 这是一个比较简单的Web结构知识挖掘系统。在ParaSite系统中,Spertus把超级链接按方向分成这样几类: 向上链接:所指向的文档目录是同一服务器的上层目录; 向下链接:所指向的文档目录是同一服务器的下层目录; 交叉链接:所指向的文档父目录与本目录没有父子关系; 向外链接:所指向的文档在其它的服务器。 通过考察一些搜索引擎(例如Yahoo!等)的目录结构,获取一系列启发性规则,如:.如果两个URL,U1和U2在同

165、一个页面中距离很近,那么它们有可能具有类似的主题或特征;.在一个层次索引中,从一个页面开始,由向下或交叉链接得到的页面,其主题和原始页面的主题相关:.从一个索引开始,任何由本页面的向外链接得到的页面,其主题很可能是相同的;利用这些规则,ParaSite系统中的搜索器就可以得到页面之间的结构关系,从而实现发现个人主页、搜索新页面和自动索引等目的。 3 WebKB WebKB是卡内基梅隆大学(CMU)的万维网信息挖掘研究项目。它致力于建造一个大型的知识库,这样的知识库能够推动对WWW网更有效的信息抽取,以及对基于Web的知识推理和问题求解的支持。WebKB中提供了多种信息挖掘的方法,这些方法采用了

166、许多比较成熟的NLP技术,功能很强,既可以适应多个特定的类别,也可以在理论上支持通用信息的挖掘,不过实现的难度都比较大。WebKB具有多种基本的学习能力,其采用的学习方法主要是文本分类的统计方法和一阶文本分类方法。 4 Shophot 能够针对商业网页,从产品制造商或销售商的主页中提取关于产品的一些属性,如价格等,通过比较,选择一个最佳的购买商。 5 Predict 这 是 一 个 网 上 的 股 票 预 测 系 统 。 它 利 用 ,,www. asianupdate. com,等提供的每日或实时数据,通过基于规则(Rulebased)的方法,预测道琼斯、恒生等财经指数的升降。6 WebMiner 这是国家自然科学基金会资助的一项研究。WebMiner的目标是实现一个人机交互的基于Web的数据挖掘系统,它采掘的对象是Web上指定的某类事物,通过对该类事物领域知识和文本格式的学习,从中提取有用的数据放到数据仓库中,然后在数据仓库中进行关联规则采掘和数据分类。整个系统主要由五部分构成:Web资源获取模块WebOb-tainer、Web数据过滤模块WebFilter、数据挖掘模块Miner以及用来进行挖掘的数据仓库和一个领域知识库。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号