四讲文本信息检索研究TextProcessingP资料讲解

资源描述

《四讲文本信息检索研究TextProcessingP资料讲解》由会员分享，可在线阅读，更多相关《四讲文本信息检索研究TextProcessingP资料讲解（93页珍藏版）》请在金锄头文库上搜索。

1、第四讲文本信息检索研究 (Text Processing),陆铭 66134922 mingler.ccshu.org,2,Outline,经典文本检索方法 (1)菊池敏典算法 (2)福岛算法 (3)加权检索文本预处理分词、词干索引和排序全文检索方法国内文本和全文检索研究,3,1.1 菊池敏典算法信息检索系统的构成,信息采集子系统广泛地、定期地采集各种信息源标引子系统人工或者自动标引建库子系统数据录入、错误检查与处理、数据格式转换、生成各种文档。仅提供定题(SDI)服务，则建立能支持顺序检索的顺排文档。若需支持回溯检索，则建立各种倒排档词表管理子系统管理维护系统中已有的

2、词表，使它与标引、建库等子系统相连接，支持用户查询操作用户接口子系统由用户模型、信息显示、命令语言和反馈机制提问处理子系统接收提问提问校验提问加工，指对原提问式进行解释性或编译性的加工，生成便于机器处理的目标提问式。加工方式常有顺序检索中的表展开法、倒排检索分别以菊池敏典法和福岛方式检索,4,菊池敏典算法,展开表概念 1968年，日本科技情报中心的菊池敏典研究出脱机批处理检索信息的表展开法(菊池敏典算法) 属于传统的布尔逻辑检索模型，基于文本信息检索，主要适用于二次文献信息的检索。主要思想是将代表用户的逻辑提问式转换成表的形式。该表规定了表的内容走向和是否命中的判断，检索时根据

3、表的走向及其相关信息来判断每条记录是否命中。,6,菊池敏典算法,最简单的例子以展开表法处理提问查询 A*B 表中，“命中”表示被查比的文献满足查询要求的出口，“落选”表示反之,7,菊池敏典算法,当一篇文献满足条件A时，还应再去查比提问条件B是否也能被满足。如果能，则该文献应被该提问选中，否则，该文献没有被该提问所选中，即落选。当一篇文献不能满足检索条件A时，则不必再去查比检索条件B是否能被满足，即可判定该文献也为落选。,8,菊池敏典算法,(A+B)*(C+D)的表展开形式,9,菊池敏典算法,过程,10,菊池敏典算法展开表生成,前处理判断提问式中的字符，从上而下填写表格若是检索词则将其

4、存入展开表内的检索词栏，并记下在表中的地址若是运算符 “+”：前一词满足，指向“*”；不满足，指向后一词 “*”：前一词满足，指向后一词若是括号 “（”：逢“（”在其后的检索词所在行的“级位”栏值加1 “）” ：逢“）”在其后的检索词所在行的“级位”栏值减1 若遇结束，则最后一个检索词所在行的“条件满足指向”栏放入“命中”，“条件不满足”放入“落选”,11,菊池敏典算法,后处理依据表中“级位”值，从下而上填写若当前行级位值大于上一行的级位值，表示上一行的检索词后有右括号若所在行的“条件不满足指向”栏为“空”，则表明当前行和上一行的检索词之间为“*”运算，应把上一行“落选”内容复制到当

5、前行的不满足栏若所在行的“条件满足指向”栏为“空”，则表明当前行和上一行的检索词之间为“+”运算，应把上一行“命中”内容复制到当前行的不满足栏若当前行的级位值等于上一行的级位值，则作以下处理：若所在行的“条件不满足指向”栏为“空”，复制上一行“落选”内容到当前行的不满足栏若所在行的“条件满足指向”栏为“空”，复制第一个右括号或提问式结束号前检索词所在行的满足栏内容到当前行的满足栏若当前行的级位值小于上一行的级位值，表示当前行的检索词前有左括号：若所在行的“条件不满足指向”栏为“空”，复制表中已处理过的第一个与当前行级位值相等或小的不满足栏到当前行的不满足栏若所在行的“条件满足指向

6、”栏为“空”，复制当前行紧后复合检索项中最后一个检索词所在词所在行的满足栏内容到当前行的满足栏,12,菊池敏典算法展开表生成示例,A*(B+C)+(D*(E+F+G)的表展开形式示例,13,菊池敏典算法展开表法的检索,生成的展开表为若干逻辑提问式的集合，形成展开表提问档检索时，提问展开表调入内存查比时，每从数据库中读取一条记录，生成一个由可检索项组成的检索标识表，每一检索项查对展开表，并对命中的检索词做上标记所有检索项查询完毕，分析提问是否命中，命中者在相应的提问号下记下记录号再取下一记录比对,14,菊池敏典算法优点,以提问中的提问条件项为检索查比的主动项由于每个独立的提问所涉及的提

7、问条件项的属性范围都不太多，因此，检索时，在文献巾查找的范围只需局限于单个提问所涉及的那一小部分(如关键词，标题等等，具体的提问条件项只在其本身属性范围内查找)。菊池敏典算法用便于查找的提问展开表代替了原来的提问逻辑式电脑可以顺着提问的思路查阅有关文献。一旦提问要求得到判定性的答案后，则可立即停止关于其他提问项的查比，而不一定要求将提问中所有提问条件项都一一查比。菊池敏典算法的实质是: 凡是可不查阅的文献属性一定不查，凡是可不再查比的提问条件项一定不再查，节约了机器的查比时间，使菊池敏典算法在早期开发情报检索自动化系统得到相当的重视及广泛的应用,15,福岛算法倒排文档的建立,倒排文档

8、相对顺排文档而言，是将顺排文档中的可检索字段取出，按照一定的规则排序，归并相同词汇，并把在顺排文档中的记录号集合赋予其后，形成的文档，可看成为辅助文档。倒排文档将两个检索词的逻辑运算转换成了两个检索词之间的记录号集合的运算。目前最常见的倒排文档检索为逆波兰展开法。倒排文档的组成元素主要包括关键字：作者，主题词，分类号目长：含有该关键字记录的条数记录号集合：所有与该关键字有关的记录号,16,福岛算法,1929年波兰的逻辑学家卢卡西维兹提出将运算符放在运算项后面的逻辑表达式，又称“逆波兰表达式”日本的福岛首先将逆波兰表达式应用于情报检索，故又称“福岛方法” 逻辑提问式 A*(B+C)+D逆波

9、兰表达式 ABC+*D+ 逻辑提问式中运算符优先次序（）， -， *， + 逆波兰表达式中的次序（），+，*，-,17,福岛算法逆波兰表达式,18,福岛算法逆波兰表达式,19,福岛算法简单理解一下堆栈,可以把堆栈理解为一个只能容纳一个人宽的死胡同，ABCD四人进去，先进去的只有等后进去的人出来才能出来，进去越早出来越晚。,所以“先进后出”就是这种结构的特点。,20,福岛算法堆栈中的术语,栈底：就是开始放入数据的单元。压栈：就是把一个人弄进死胡同里。弹出（POP）：就是死胡同里的最后一个人出来了,21,福岛算法逆波兰表达式,例: 当遇到这样的计算式时,2,4,-,4,2,*,-3,-,+,

10、-2,8,11,9,22,福岛算法逆波兰表达式,s,2,4,-2,4,-2,9,8,2,8,-3,11,11,9,23,福岛算法倒排文档的建立,24,福岛算法,作者索引,25,福岛算法作者索引,26,福岛算法,选择需要做索引的字段属性(如作者、关键词等)，抽出其中的内容，并在其后附上记录号对抽出的内容进行排序，使之便于归并相同内容对相同内容进行归并，把合并后的内容放入倒排文档的主键字段(如标引词、作者等)，统计每一数据的频次为目长，把每一内容后的记录号顺序放在记录号集合字段为转换处理开辟三个存储：算子区：用于存放转换过程中的运算符检索表存储区：用于存放检索词逆波兰输出区：用于存放逻

11、辑提问式的逆波兰表达式,27,福岛算法,遇运算符若当前运算符的优先级高于前一算符，将该算符送算子栈若当前运算符的优先级低于或等于前一算符，将顶部算符送逆波兰输出区，当前算符再与栈内顶部算符比较，优先级别低者送逆波兰输出区，否则送算子栈遇左括号表示其后存在一个复合检索项，暂不组成运算，而将左括号无条件放入算子栈遇右括号表示与其对应的左括号之间的所有算符都可以组成运算，栈内括号间的所有算符无条件出栈，并送逆波兰输出区，同时放弃这对括号遇运算项将运算项(检索词)存入检索词表，并将其在检索词表的位置送逆波兰输出区遇结束号算子栈内的算子依次出栈送逆波兰输出区,28,福岛算法,逆波兰法

12、处理示意图,检索词表,逻辑提问式（A+B）*（C+EF）,04030201,词表地址,算子,区分运算项还是运算符,逆波兰输出区,29,福岛算法检索指令表的生成,逐行扫描逆波兰输出表，实现从逆波兰表转换为检索指令表若为检索词若为运算符若为结束行转储操作结束,30,福岛算法检索实施,按照检索指令表的顺序，依赖检索词表和检索指令表，进行操作：若操作码为“1”，进行查找和输入操作若操作码为“2”，转储操作若操作码大于“2”，逻辑运算操作若操作码为“0”，逻辑检索提问式检索结束,31,1.3 加权检索,根据用户的检索要求来确定检索词，并根据每个词在检索要求中的重要程度不同，分别给予一定

13、的数值(权值)加以区别，同时利用给出的检索命中界限（阈值，threshold）限定检索结果的输出加权检索是对每个检索词赋予一个数值，即“权”，权值越大，检索出的文献命中程度越高。不同的检索系统对加权有不同的定义，也并非所有计算机检索系统都具备加权检索功能。加权检索的侧重点不在于是否检索到某篇文献，而是对检索出的文献与需求的相关度作评判。,32,加权检索检索词赋权检索,检索要求：为了改进企业管理模式，接受新的管理理念，提高企业的竞争力，希望获取知识管理、竞争情报、企业文化父母的文献资料，用加权法列出的提问式如下：W知识管理（4）竞争情报（2）企业文化（1）在所有存储的记录中查找满足上

14、述检索词的文献，然后对检索词加权，文献按匹配的检索词权值之和从大到小排列显示,33,加权检索检索词赋权检索,加权检索结果实例,34,加权检索词频加权检索,根据检索词在记录中出现的频次来计算命中记录的权和，依据命中记录权和从大到小排列，最后由阈值控制输出命中结果词频加权检索建立在全文数据库和文摘数据库基础之上，以免信息量过小，词频加权检索失去意义简单词频加权检索：不论文章长短，以篇为单位计算权和相对词频加权检索：指定词在文中的频次文内频率该文献词汇总频次指定词在文中的频次文外频率该词在整个数据库中总频次,35,加权检索加权标引检索,在文献标引时，根据每个标引词在文献中的重要程度不

15、同为它们附上不同的权值，检索时通过对检索词标引权值相加来筛选命中记录反映文献主要内容的标引词给予高权值，反映次要内容的标引词给予低权值。比较检索词赋权检索，结果更具科学性根据词在文中不同位置、出现频率来综合，由计算机自动给予标引词加权,36,2 文本预处理,不论是文档还是查询，都要变成index term的某种形式(布尔表达式、向量、概率、统计语言模型参数) 抽取什么样东西的作为index term? 将文档的字符串序列变成词序列英文词法分析：书写时英文词之间通常通过空格或者标点进行区分，因此从英文字符串变成英文词是相对比较容易的。中文词法分析：书写时通常没有空格，需要分词中文分词就是

16、将词语之间没有边界的中文句子分解为一个中文词语ID序列。分词是索引中速度最慢的环节,37,文本预处理,一般完成待索引文档的导入及规范化从文档中抽取文字部分完成编码转换将字符串映射到整数流其他操作,38,文本预处理分词,语素是最小的语音语义结合体，是最小的语言单位。 “字”：简单高效,国家标准GB2312-80 中定义的常用汉字为6763个.表示能力比较差，不能独立地完整地表达语义信息。词是代表一定的意义，具有固定的语音形式，可以独立运用的最小的语言单位。 “词”：表示能力较强，但汉字的词的个数在10万个以上,面临复杂的分词问题,39,文本预处理,哈希函式从上世纪八十年代开始就有了相关研究 Knuth的研究结果表明，对最常用的31个英文单词建立哈希函式，获得1043种可能的搜索空间，对39个Pascal预定义标识符建立哈希函式，获得搜索空间为2039个节点,40,文本预处理分词主要方法,基于字符串匹配的分词方法 1）正向最大匹配法 2）逆向最大匹配法 3) 双向最大匹配法 4）最少切分基于理解的分词方法基于统计

展开阅读全文