信息检索系统与其构成

上传人:n**** 文档编号:55841452 上传时间:2018-10-07 格式:PPT 页数:88 大小:2.16MB
返回 下载 相关 举报
信息检索系统与其构成_第1页
第1页 / 共88页
信息检索系统与其构成_第2页
第2页 / 共88页
信息检索系统与其构成_第3页
第3页 / 共88页
信息检索系统与其构成_第4页
第4页 / 共88页
信息检索系统与其构成_第5页
第5页 / 共88页
点击查看更多>>
资源描述

《信息检索系统与其构成》由会员分享,可在线阅读,更多相关《信息检索系统与其构成(88页珍藏版)》请在金锄头文库上搜索。

1、第 2 章 信息检索系统 及其构成,信息检索行为要在一定的环境(或设备)条件下才能实现,这种环境(或设备)条件就是信息检索系统,它是信息检索研究的基本对象之一,2.1 信息检索系统及其类型,一、信息检索系统的定义 系统是由若干个具有独立功能的元素(或部件)组成的一个有机整体,这些元素(或部件)之间相互联系、相互制约,共同完成某种规定的任务与目标。,2.1 信息检索系统及其类型,系统的数学描述:System = (Input, Processing, Output), 其中 Input = i1, i2, , im (m 0) Processing = p1, p2, , pk (k 0) In

2、put = o1, o2, , on (n 1),2.1 信息检索系统及其类型,信息检索系统是具有信息存储和信息查询功能的一类信息服务设施(或工具),2.1 信息检索系统及其类型,信息检索系统的基本要素:(1)明确的目标信息检索系统应具有明确的服务对象、专业范围及用途(2)不可缺少的资源信息检索系统必须收集、加工、存储一定数量(或规模)的信息资源,(3) 技术装备信息检索系统的技术装备主要涉及存储信息的载体、匹配选择的机制、信息的输入/输出/显示/传递等设备(4) 方法与措施信息检索系统应提供一定的方法与措施,保证信息检索系统的查全率和查准率(5) 功能信息检索系统所应具有的检索及其他信息服务

3、功能,2.1 信息检索系统及其类型,二、信息检索系统的类型:按照设备划分 书本式检索系统 卡片式检索系统 穿孔卡片系统(机械化检索系统) 缩微式检索系统 计算机化检索系统 网络检索系统,2.1 信息检索系统及其类型,按照功能划分 文献检索系统 数据库管理系统 自动问答系统 管理信息系统 决策支持系统,2.2 信息检索系统的基本结构,信息检索系统的物理结构硬件部分 软件部分 信息资源集合,2.2 信息检索系统的基本结构,信息检索系统的逻辑结构,信息检索系统的逻辑结构,信息检索的基本原理:对信息资源集合与信息需求集合的匹配与选择,信息检索是一种有目的和组织化的信息存取活动,2.3 信息存储各功能模

4、块分析,一、信息资源及其选择与采集,印刷型信息资源:以纸张为存储介质、以手写或印刷为记录手段而产生的一类传统信息资源 电子型信息资源:以数字化存储技术,把文字、图形、图像、声频、视频等多种形式的信息存放在光、电、磁等非印刷型介质上,以光信号、电信号的形式传输,并通过计算机和其他外部设备再现出来的一类信息资源,信息资源及其类型,文献:记录有知识的一切载体 (三个要素:知识、记录方式、载体) 科技文献:记录科学技术信息的载体,科技文献,科技文献的作用,科技文献是科技进步的阶梯。 科技文献作为记录科技信息或知识的物质形式,传递科技信息或知识。 科技文献的数量和质量是衡量科学技术发展水平和学术成就的标

5、志之一。,科技文献的分类,认识不同出版形式的文献,按出版形式划分,科技文献可分为3大类,即科技图书、科技期刊和特种文献(在现实中,又将特种文献中的8类文献与图书和期刊并称为10大文献)。,(一)图书,图书:通常被认为是由正式出版社出版的出版物。其范围很广,包括专著、文集、教科书、普及读物、百科全书、年鉴、手册、词典等。特征为出版社名称、ISBN号等分为阅读型和工具型,图书,特点:成熟,全面,可靠,时效性差 用途:初步了解一般性问题实例:,(二)期刊,期刊:俗称杂志。是定期或不定期周期性出的连续出版物,特征为刊名、卷Vol.、期No.、国际标准刊号ISSN期刊分为: 学术性(Journal) 情

6、报型: 工具型(Abstracts, Index)报导型(News) 综合型(Review, World, Age),期刊,特点:数量大,品种多,内容丰富,出版周期短 用途:获取最新研究成果和动态实例:,(三)特种文献,特种文献:形式比较独特,一般是单独成册,主要出版特征是号码,主要特种文献有以下八种类型,学位论文,学位论文:是高等院校硕士(Ms.D)或博士(Ph.D)毕业生为申请学位而提交的毕业论文。特征:学校名称及学位,学位论文,实例:,科技报告,科技报告:研究机构关于某项科研成果的正式报告,或者是对研究过程中阶段进展情况的实际记录。国防与航空航天方面居多.特征:报告号,科技报告,例如:

7、NASA20050082846 (美国宇航局科技报告) ADA207606(美国国防系统研究报告) DE91011930(美国能源系统研究报告) PB 90226341(美国民用系统研究报告)AGARDR775(北大西洋公约组织研究报告) HY93007(航空信息研究报告),科技报告,实例:,会议论文,会议文献:主要是学术会议上宣读的论文或交流的书面论文,形式有单行本(会议预印本preprint)和会议论文集。特征为:会议名称、时间、地点,会议论文,特点:文献论题集中,内容新颖、丰富、专、深、学术性强,能反映出一个国家、一个地区或国际上当前某一科学技术领域的最新成就、最高水平和发展趋势。 实例

8、,专利,专利:发明人申请专利时 呈交的申请说明书。一般包括:发明人、发明的详细说明、专利权范围、插图等。特征:专利号,专利,实例:,政府出版物,政府出版物:这是各国政府部门及其设立的专门机构发表、出版的文件,分为行政性文件(如法令统计等)和科技文献(3040)。,标准,标准:主要是对工农业产品和工程建设的质量、规格及其检验方法等方面所作的技术规定,是从事生产、建设的一种共同技术依据。特征为:标准号,标准,实例:,产品资料,产品资料:产品资料是制造厂商为了推销产品而发出的,以介绍产品性能为主的出版物。,产品资料,实例:,科技档案,科技档案:科技档案是科学技术研究和生产建设部门,在科学技术研究和生

9、产建设活动中形成的,有具体工程对象的技术文件、图样、图表、图片、原始记录的原本或代替原本的复制本等,文献类型文献馆藏系统,机构 主要收藏图书馆 图书、期刊、学位论文信息中心(情报所) 科技报告、会议论文、期刊档案馆 科技档案专利局 专利申请书说明书 标准馆 标准,信息检索的基本原理,图1-1 信息检索的基本原理示意图,信息检索系统的逻辑结构,科技文献的分类,认识不同内容层次的文献,文献整理,知识重组 知识浓缩,一次文献(Primary Document): 通常是指原始制作,即作者以本人的研究成果为基本素材而创作(或撰写)的文献。例如: 期刊论文、会议论文、科技报告、 学位论文、专利说明书,二

10、次文献(Secondary Document):是指文献情报工作者对一次文献进行加工整理后所得到的产物,也是为了便于管理和利用一次文献,由文献情报工作人员编辑、出版和积累起来的工具性的文献。二次文献的重要性在于可以帮助人们查找一次文献。 例如:目录、索引、文摘、新书通报等。,三次文献(Tertiary Document):是指利用二次文献,选用一次文献内容,经综合,分析和评述后形成的指南性文献。例如:述评、专著、教科书、论文丛集、百科全书等。,零次文献:指尚未经过系统整理形成一次文献的零散资料.例如:未正式发表的书信、手稿、讨论稿,实验的原始数据、工程草图等,2.3 信息存储各功能模块分析,二

11、、信息标引处理,标引是指对信息资源的各种检索特征进行分析并使之显性化,以便为存储和检索这两个环节提供某种连接的一种重要的信息加工操作。 标引处理模块的主要功能/任务:对信息资源中具有检索价值的特征信息,如题名、作者、主题内容、类别等进行提取与标识,并组织成索引文档,为用户的查询和访问提供准确而有效的检索入口,2.3 信息存储各功能模块分析,从技术上讲,标引处理主要有人工标引、自动标引等不同类型。其中,自动标引又有全自动标引和半自动标引、自动抽词标引与自动赋词标引之分 自动抽词标引指利用计算机直接从文献的题名、文摘或正文中抽取关键词来标识文献内容,并自动生成关键词索引文档 自动赋词标引则是让计算

12、机模拟标引员的赋词标引方法,通过分析文献内容,从词表中选取与文献主题相符或密切相关的词语符号做索引词,2.3 信息存储各功能模块分析,自动标引处理流程,中文自动标引,中文文本自动标引的词语切分常见处理方法: 词典切分法 切分标记法 单汉字法 N-gram法,中文自动标引,词典切分法是目前中文自动标引研究中所占比重较大的一类方法,根据机器内词典具体形式的不同,分为 主题词表法 关键词词典法 部件词典法,中文自动标引研究,主题词表法的基本处理过程 利用非用词表排除文本中的禁用词,并将剩下的短语放在短语文件中 利用机读主题词表对短语文件中的短语逐一比较,抽取出匹配成功的词,将其所在位置、范畴号等信息

13、记录在抽词文件中 利用一些主题判断规则和汉语的局部语法特征,对上述两文件中的信息进行加工,从而确定用于标引的词语,中文自动标引研究,关键词词典法该方法试图构造一个庞大的关键词词典,并以此作为切分工具,对待切分的文本语料进行扫描和切分。该方法使用的切分词典一般规模庞大,灵活性比较差,中文自动标引研究,部件词典法 前提:汉语中二字词数量最多,一字词次之,其他多字词中的大多数又可以拆分成若干个二字词或一字词。 因此,可以建立一种有一字词和二字词组成的部件词典,匹配时,利用部件词典对文本进行正向扫描,二字前进,最长匹配。先取二字词看是否为词的可能部件,不成功时则取当前的第一字判读是否为重要词的可能部件

14、。该方法不仅可以减轻对词典的组织管理负担,还可以提高处理速度和组词的灵活性,切分标记法 将汉字分为四类:非用字、条件用字、表内用字、表外用字 通过挑选和标记,建立一个“非用字后缀表”(字典),作为辅助抽词的工具,切分标记法,具体的切分和标引处理方法用计算机扫描输入的汉字串,逐字与“非用字后缀表”中的汉字进行比较,如果是“非用字”,则舍去,否则取出 依据预先拟定的不同构词模式,对抽出的字符串进行分解,形成单词或专用词组 对抽取出来的单词或词组进行优化,形成最终的标引用词,单汉字法,标引处理的基本思想将文本中的汉字逐一取出,同时记录下它们的文献号,字段号以及汉字所处的位置编号,然后把这些信息写入为

15、每个汉字建立的索引文档中。用户检索时,将用户所给出的检索词拆分为单个汉字,分别查找单汉字索引文档,并根据汉字的文献记录号和位置信息进行比较和匹配,N-gram法,N-gram(N0),是指由N个相邻字符组成的字符串序列。 对文本进行处理,可得到该文本所包含的长度为N的字符串集合。 对“数字图书馆”进行4-gram处理, 有 数字,字图,图书,书馆 对“information”进行4-gram处理,有info, nfor, form, orma, rmat, mati, atio, tion,N-gram法,N-gram法是一种与语种无关的纯统计分析式的文本处理技术 这种方法通过对汉语文本中的N

16、-gram指标的出现频率进行统计分析,无需词典和规则,可大大提高文本标引的处理速度和自动化水平,2.3 信息存储各功能模块分析,自动标引中的词频统计和加权方案,自动标引中的词语加权方案绝对词频法 逆文档频率法 词区分值法,绝对词频法,假设:当某个作者要深入阐述或解释某一话题时,它常常会重复使用某些特定的词语这种强调手法可以作为判断词重要性的一种标志。也就是说,把词在文档中的出现频次作为该词重要性的一种有效测度,绝对词频法,基本原理 在给定的一个由N篇文档组成的文档集合中,计算出每篇文档中每个不同的词的出现频次Freqik 把每个不同词在N篇文档中的出现频次相加,得到词k的集合频率Tfreqik 按集合频率递减次序排列这些词,并用试错法确定高频词和低频词的阈值 排除高频词和低频词,挑选余下的中频词作为标引词,并按照他们的Freqik来决定在相应文档中的权值,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 电气安装工程

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号