智能检索技术－金锄头文库

资源描述

《智能检索技术》由会员分享，可在线阅读，更多相关《智能检索技术（31页珍藏版）》请在金锄头文库上搜索。

1、智能检索, 文本智能检索技术,1. 检索？和智能检索？,“检索”简单的说就是指从文献资料、网络信息等信息集合中查找达到所需要的信息资料过程。“智能检索”是由抽词检索与全文检索发展而来，它是对检索词具有较高的判断、理解和处理能力的人工智能型的多媒体检索系统。,2. 智能检索技术几方面？,（1）文本智能检索技术（2）图像智能检索技术（3）视频智能检索技术,文本检索技术,基于索引的检索技术, 在获取信息时，顺序搜索的响应时间将变得不可忍受。解决搜索响应时间的办法是对文本文挡库中的文件进行预处理，为文本文库建立一种便于搜索的数据结构索引。基于索引的搜索技术非常适合用于大规模、稳定的或中期性变化的

2、文本文档库，如今绝大部分搜索引擎（如Google）采用的都是基于索引的检索技术。, 随着时间的推移，基于web的信息越来越多，如何在海量的信息中获取自己真正需要的信息成为一个巨大的挑战。,背景知识, 基于索引的检索技术,1、文本文档库,要进行检索之前，首先检索系统将所有的检索对象收集起来，构建集中的本地文本文档库。例如：对于web搜索引擎，其检索对象主要是web网页，因此搜索引擎需要从互联网上抓取尽可能多的网页保存到本地文本文档库中，一般这个过程由程序自动完成，在此不过多讨论。,文本文档库,2、文本提取,基于文本文档库进行文本提取。文本提取过程主要是提取各种格式文档中的字符串。文本检索系统不

3、仅面向互联网的web网页，还面向各种文本类型，例如：XML,PDF,Microsoft Word等等。下面以XML格式信息为例，介绍如何从该格式的文档中提取文本内容。,文本提取, 解析XML文档,XML文档一般都是纯文本文档，其文本内容可以直接读取，读取时需要一些工具对其中的信息进行解析，可选择的工具有SAX API（Application Programming Interface）等。 XML的SAX API定义了一个以事件驱动的接口。在这个接口中，当某个分析事件发生时，解析器（解析器是在读取文档时，激活一系列的事件，这些事件被推给事件处理器，然后由事件处理器提供对文档内容的反问。）会调用

4、几个方法中的一个予以响应，而这些方法由调用程序提供。触发事件包括文档或文档元素的开始、结束或解析出错等。,3、文本预处理,提取出文本字符串之后，还需对文本字符串进行预处理以选择合适的词来建立索引。文本预处理首先将文本中包含的词分析出来，即分词（）。在语义表达方面并不是所有词的表达能力都是同等的，因此除了分词之外，文字预处理还包括停用词删除、词干提取、索引词选择和建立词典等操作。,文本预处理,分词, 分词的概念,词是最小的能独立活动的、有意义的语言成分。关键词查询的前提就是将条件分解成若干关键词。众所周知，英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能

5、描述一个意思。例如，英文句子I am a student，用中文则为：“我是一个学生”。计算机可以很简单通过空格知道student是一个单词，但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是切词也称为分词。我是一个学生，分词的结果是：我是一个学生。, 常用分词方法分类,（1）基于字符串匹配的分词方法基于字符串匹配的正向最大匹配算法,（2）基于统计的分词的分词方法又叫无词典分词法或统计取词方法,（3）基于理解的分词方法试验阶段,分词技术属于自然语言处理技术范畴，对于一句话，人可以通过自己的知识来明白哪些是词，哪些不是词，但如何让计算机也能

6、理解？其处理过程就是分词算法。, 基于字符串匹配的正向最大匹配算法又称“机械分词方法”（由左到右的方向）,基本内容,它是按照一定的策略（某种算法）将待分析的汉字串与一个“充分大的”机器字典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功（识别一个词）。按照扫描方向的不同，机械分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配最小（最短）匹配,ASM（Automatic Segmentation Model）模型,对于机械分词方法，一般可以建立一个一般的模型，即ASM。该模型形式的表示为ASM（d，a，m），其中d，a和m的含义取值如下所示：,d ：

7、匹配方向，+1表示正方向，-1表示逆方向； a ：每次匹配失败后增加或减少字串长度（字符数）， +1为增字，-1为减字； m：最大或最小匹配标志，+1为最大匹配，-1为最小匹配,在实际应用中，基于字符串匹配的正向最大匹配算法 ASM（+1，-1，+1）就是一种广泛应用的机械分词方法，该方法依据仅一个分词词表和一个基本的切分评估原则（即“长词优先”原则）来进行分词。这种切分方法，需要最少的语言资料（仅需一个词表，不需要任何词法、句法、语义知识），程序简单，开发周期短。,基于字符串匹配的正向最大匹配算法流程图,待切分字符串C、词典S最大的词长MaxLen,C是否为空,Y,结束,从C左边

8、开始，取出候选字串w，w的长度为MaxLen,查看w是否在词典S中存在,N,将w最后边一个字母去掉,识别出词w,Y,Segment(S , C,MaxLen) begin0;k0;while(begin=n) endmin(n,begin+MaxLen-1);w= C.substring ( begin ，end ); while（w s） endend-1;w=C.substring(begin , end);rk w;k k+1; beginend+1; return R；（？）,输入：词典S，待切分字符串C =c0c1cn，S中的最长词条长度MaxLen;输出：字符串数组R=r0r1rn

9、，其中每个元素为从C中切分出来的词。,基于字符串匹配的正向最大匹配算法的伪代码如左所示：, 停用词删除, 停用词删除的优缺点在选择建构索引的词时，停用词需要被过滤，以提高索引效率。一般的，冠词、介词、连词都是停用词，实际上检索系统都会设置一个停用词表。删除停用词可以大大缩小索引空间的大小，一般可以缩小40%左右。删除停用词的缺点是可能会影响检索系统的查准率，有的文本检索系统为了克服这一缺点采用全文索引，并不提出停用词，对所有的词都建立索引。, 停用词的概念我们知道如果一个词在某个文本中多次出现，那么这个词就可能和文本的主题密切相关。然而如果一个词在多个文本中出现，而且频率过高，那么它对文本

10、的区别能力就非常低。一般地，在文档库的文本中出现频率超过80%的词对检索过程根本不起作用，这部分次被称为停用词。,词干提取, 什么是词干？词干是指将此的词缀删除后剩下的部分。例如单词“make”是它的变形“makes”、“maker”、“making”、“made”的词干。词干提取词干提取是为了解决英文检索中存在的问题而采取的操作。在英文检索中，如果用户输入的词是信息库中某个相关文本词的一种变形，如上面的make如果输入makes则其他形式就视为与无关文本，这样将大大影响召回率。为解决这个问题，在构建索引时，用词干来代替词干的所有变形。这样不仅可以提高召回率，改善信息检索的性能，而且构建索引

11、的词汇量将大大减少，索引空间也进一步缩小。,索引词选择, 如果采用全文索引，那么文库中的所有词都要建立索引，而对有些语义表达能力不强的词建立索引将浪费系统的索引空间，而且影响系统的检索性能，因此并不一定对文档中出现的所有次都要建立索引，而是选择一些比较重要的词来建立索引。自然语言中的句子一般是由名词、代词、冠词、动词、形容词、副词、介词和连词构成。在这些词中，主要由名词表达句子的语义，因此选择句子中的名词作为索引词是一个可行的方法。这可以通过删除文本中的动词、形容词、副词、连词、冠词、介词和代词来实现。,建立词典, 词典是指同义词典或分类汇编，在文本检索系统中，词典是被用来根据词找到相关词

12、信息的数据汇编,2、对于词典中的每个词，都有跟它相关的一些词。,这些相关的词可以是它的变形或者它的同义词。有些词典还包含一些相对复杂的结构，例如有些词典考虑了短语，这些短语与简单的词相比可以表达更为复杂的概念，还有些词典不仅包含同义词，还有反义词、上位词、下位词、蕴涵词等，例如 WordNet （在线英文词典）。,当一个用户需要获取文档的时候，他首先由这样一个概念：想查找什么，这个概念可以看作用户的信息需求，有了信息需求之后，用户必须将它转换为检索系统所能支持的查询格式，这意味着用户需要一些检索词。然而由于信息非常庞大，对于用户来说一开始选择的词可能错误或不适合。这个时候使用词典就可以对用户

13、进行帮助。, 词典的主要作用,1、提供索引和检索的标准词,2、帮助用户使用合适的查询词,3、提供分类层次结构，这样可以根据用户的需求扩大或缩小查询请求,4、对查询进行纠正或扩展。,4、索引,索引, 文本预处理的结果将被用于构建文本检索系统的核心索引, 索引的定义和种类,便于用词检索的数据结构,倒排文件（Inverterd file）,后缀树（Suffix tree）,签名文件（Signature file）, 倒排文件定义和组成,倒排文件索引数据结构,倒排文件或称倒排索引、倒排表，用来提高查询速度。,词汇表：一般用特殊的数据结构（例如trie树）存储来提高词的查询速度。对于词汇表中

14、的每个词，在词出现情况中都有一个列表来记录词在所有文本中出现的位置。,词出现情况,两部分组成（如图）,T,关键词,出现情况记录,（3）词出现情况操作：主要是通过对上一步中够获取的词出现情况列表的操作来实现短语查询和近似查询等。, 基于倒排文件的搜索一般分为如下三个步骤：,（1）词汇表查询：将查询语句分割成独立的词，在词汇表中查询这些词；,（2）查询词出现情况：获取与查询串中所有词相关的出现情况列表；, 倒排文件构造,倒排文件的构造比较简单，以下图“Today is Tuseday ，we will have a nice day.”为例。假设该文档中出现的词都将被索引，并且在索引中用trie

15、树结构存储词汇表。,如图，trie树结构可对词汇排序，在记录词出现情况时，以索引词距离文档起始位置的字符个数表示该索引词出现的位置（包括空格）。当然，在实际应用中词的出现情况不仅包括词在文档中出现的位置，还要包括词出现文档的编号，此处只为举例说明索引构造原理，因此对实际情况作了简化。,以此为例,如图，当处理“Tuseday”时，词表中没有该词，则就在树中添加一个词出现列表，并添加记录：“Tuseday：10”, 注意,如果文本文库特别大，倒排文件的大小超过可用内存大小时，倒排文件显然不能一次性构造完毕，这时候就需要把文档库分割成若干个部分，对每个部分构建索引并临时存放到磁盘，然后释放内存空间，

16、处理其他部分，知道所有文档处理完毕。最后将所有的部分索引进行多路归并，即当有相同的词出现在多个索引中时，合并相应的词出现情况列表。归并后形成整个文档库的倒排索引。,5、文本检索模型, 文本检索模型和种类用户在搜索信息时，希望获得与其需求密切相关的搜索结果。因此需要衡量查询结果与查询的相关程度，进而对查询结果进行排序。文本检索模型用来严格确定文本的表示方式、查询的表示方式以及查询与文本匹配程度。种类：布尔模型，向量空间模型VSM（Vector Space Modle），概率论模型，PageRank模型,同学们，请接招！,课堂小思考第一题：记忆题分词属于哪个阶段的主要过程？第二题：请用“机械分词法”将下面一段句子进行分词（初始状态MaxLen为5）。 “乒乓球拍卖完了”,

展开阅读全文

智能检索技术

最新文档