基于句法结构特征分析及分类技术的答案提取算法

资源描述

《基于句法结构特征分析及分类技术的答案提取算法》由会员分享，可在线阅读，更多相关《基于句法结构特征分析及分类技术的答案提取算法（19页珍藏版）》请在金锄头文库上搜索。

1、胡宝顺等:基于句法结构特征分析及分类技术的答案提取算法19基于句法结构特征分析及分类技术的答案提取算法*本课题得到国家自然科学基金(60573090)资助.作者简介:胡宝顺,男,1981年生,硕士研究生,主要研究领域为信息检索技术;王大玲,女,1962年生,博士,教授,主要研究领域为搜索引擎技术;于戈,男,1962年生,博士,博士生导师,主要研究领域为数据库及相关技术;马婷,女,1981年生,硕士研究生,主要研究领域为文本挖掘技术.联系人:王大玲,电话:+86-24-8368-7776, E-mail: 胡宝顺1, 王大玲2+, 于戈2, 马婷21(东北大学软件学院计算机科学与技术专业,辽宁

2、省沈阳市 110004)2(东北大学信息科学与工程学院计算机软件与理论研究所,辽宁省沈阳市 110004)摘要:由于中文自然语言处理的特点和困难，以及相应的语言处理基础资源的相对缺乏，使得国外一些成熟技术和研究成果不能直接应用到中文问答系统中。为此，针对中文事实型问答系统，提出一种新的基于句法结构特征分析及分类技术的答案提取算法，该方法将答案提取问题看成是候选答案的分类问题，即将候选答案分类为正确和错误两类。首先，该方法根据与问题类型所对应的候选答案的类型信息，从文本片断中提取出候选答案及其在句子中的简单特征和句法结构特征；然后利用这些特征训练分类器；最后用训练得到的分类器判别候选答案是否为

3、正确答案。针对中文事实性问题，该方法与目前典型的基于模式匹配的中文答案提取算法相比，准确率提升6.2%，MRR提升9.7%。关键词:句法依存分析;分类;答案提取;中文问答系统;事实性问题中图法分类号TP3911 引言和国内外研究现状随着互联网的普及，搜索引擎已经成为人们快速查找信息和资源的重要手段。但目前的搜索引擎主要采用基于关键字的查询，而关键字的简单组合不能明确表述用户的查询意图，这一问题已成为制约搜索引擎性能提高的瓶颈之一。问答式检索系统（简称问答系统）正是为克服传统搜索引擎的这一弊端应运而生的。与基于关键字的传统搜索引擎不同，问答系统允许用户以自然语言形式提问，并将准确简短的答案、而非

4、大量的相关文本和网页返回给用户。比如：用户提问“第三届亚洲政党国际会议是由哪个政党主办的？”，问答系统就可以将“中国共产党”的答案返回给用户。因此可以说，问答系统是更高效、更人性化的新一代搜索引擎。同时也是集自然语言处理、信息检索、信息抽取、机器学习等多学科技术于一体的复杂系统。一般来说，问答系统主要包括问题分析、信息检索和答案提取三个部分。其中，问题分析的主要工作包括确定问题类型和提取问题中的关键字等；信息检索部分的任务是利用问题关键字生成查询条件，然后利用文档库或提交给Web搜索引擎进行检索，返回相关的文档或段落；答案提取部分的任务则是从候选的文档或段落中提取出正确答案。作为问答系统中一个

5、关键环节，答案提取部分性能的优劣直接影响整个问答系统的性能。Dan Moldovan1等人关于问答系统错误的分析结果表明，约18.7%的回答错误是由诸如候选答案识别错误、答案排序错误等导致的。因此，答案提取算法的研究对提高问答系统整体性能具有重要的意义。近几年来，国外很多科研院所和著名公司如IBM、Microsoft、ISI、MIT、University Of Cambridge等都积极投入到问答技术的研究中，多个问答系统评测平台如TREC、NTCIR、CLEF的成功举办也极大的推动了该领域的快速发展。目前，国外已经有一些相对成熟的问答系统问世，同时也不乏研究人员提出了很多效果理想的答案提取算

6、法。同时近些年，国内从事问答系统相关研究的机构不断增加，其中中国科学院自动化研究所、哈尔滨工业大学、复旦大学、清华大学和沈阳航空工业学院等都在该领域做了很多研究工作2,3,4。但相对而言，中文问答技术的研究尚处于初级阶段，与国外存在较大差距。一方面，由于中文自然语言处理的特点和困难，目前这方面的各种底层技术还不够成熟和完善；另一方面，相应的语言处理基础资源如知识库、语料库等也相对缺乏，这使得国外一些成熟技术和研究成果不能直接应用到中文问答系统中。基于此，本文提出一种应用于中文问答系统的基于句法结构特征分析及分类技术的答案提取算法。本文其余部分的组织结构如下：第二部分简单介绍答案提取算法的相关研

7、究工作；第三部分简要介绍我们提出的算法的总体实现步骤；第四部分论述提取句子句法特征时应用的关键技术：基于句法依存分析的路径相似度计算；第五部分阐述候选答案的特征提取及分类问题；第六部分给出实验的具体步骤和实验结果；第七部分是总结和展望。2 相关工作目前中文问答系统的答案提取算法主要包括三类：(1) 基于信息检索和信息抽取的问答技术5,6,7；(2) 基于模式匹配的问答技术2,8,9,10,11,12,13；(3) 基于机器学习的答案提取技术3,4。文献6描述了一个典型的基于信息抽取的答案提取算法。该算法的主要思想是，在信息检索模块返回的前几个相关的句子的基础上，进行更细化（fine-grain

8、ed）的命名实体识别，将问题类型对应的命名实体作为候选答案，然后将与匹配词距离最近的候选答案作为正确答案。该文献提出的系统的整体性能良好，但是仅就答案提取而言，算法显得有些简单，且仅使用了匹配词与候选答案词的距离这一个特征。文献13提出了一种基于表面文本模式（surface text pattern）匹配的答案提取算法。该算法首先人工标注问题的标准答案；然后根据搜索引擎检索含有问题中的焦点词和正确答案的句子，利用广义后缀树（generalized suffix tree）算法提取出这些句子的公共字符串；对公共字符串经过过滤和准确性评估后，将保留下的字符串中的焦点词和标准答案替换为插槽词（slo

9、t word）生成答案模板；最后利用答案模板来进行答案提取。该方法在问题类型为询问生日、发明者、发现者、定义、成名原因、地点时有很好的效果。但是解答其他的问题类型时性能不佳，且不能处理焦点词和正确答案之间长距离的依存关系。文献2中提出了一种基于无监督学习的问答模式抽取技术。并通过实验证明应用问答模式提取答案是有效的。该算法无需用户提供对作为训练集，只需用户提供每种提问类型两个或以上的提问实例。算法即可通过Web检索、主题划分、模式提取、垂直聚类和水平聚类等步骤完成该类型提问的答案模式的学习。该算法存在的问题是：需要对问题类型进行详细的划分，针对每一个问题类型均需要从互联网中学习相应的问答模式。

10、该算法针对只有一个“提问焦点词”的问题的性能较好。针对有多个必需限定词的问题，该算法只能通过增加问题模式类型来解决。如：“中国最长的河流是什么？”，该问题中的“中国”和“最长”均为必需的限定词。按照该算法，问题的“提问焦点词”为“河流”。这就导致了该算法的扩展性受到制约。Ang Sun3将答案句子提取问题视为分类问题，即将候选答案句子分类为正确或是错误。他们通过提取问题和候选答案句子的特征训练最大熵模型，然后利用得到的模型提取答案，并通过实验证明该方法的有效性。受到该文章的启发，我们提出了这个基于分类技术的答案提取算法。我们的方法与Ang Sun12的方法的不同之处在于，我们的方法可以直接提取

11、出精确的答案词，而不是答案所在的句子。文献4中提出了一种基于实例的答案提取算法。该算法利用问题及其对应的正确答案句子、错误答案句子和正确答案词中提取得到的特征作为分类算法最大熵模型（Maximum Entropy Model）的训练特征。该文章主要提取了以下三个特征：(1) 查询词与句子的匹配情况；(2) 问题句子中的词与句子中的词的匹配情况；(3) 疑问词与句子中的词的匹配情况，即句子中是否含有与问题答案相同词性的词。以上三个特征均为布尔型值，即：“真”（TRUE）或者“假”（FALSE）。该文章仅对地点（国家）和实体（语言）型问题进行了性能测试，没有与其他答案提取算法进行性能对比实验。该算

12、法提取的分类特征比较简单，且均为布尔类型。没有考虑词之间的语义特征，所以在分类性能上将会受到一定的制约。3 基于分类技术的答案提取算法因为本文的重点是答案提取算法，问题分析和信息检索非本文的重点，所以我们将问题类型信息视为已知信息。对于信息检索模块，我们简单地使用Google搜索引擎检索得到的文本片断（snippet）作为答案提取的来源。3.1 生成查询词生成查询词是文本片断检索的基础。我们借鉴了文献7中系统的查询词生成算法并加以改进，具体算法如下：(1) 根据问题集，生成一个疑问词列表。疑问词为形如：“谁”、“哪”、“什么”等等的词；(2) 对问题进行分词和词性标注，将问题中出现的疑问词及其

13、后面的量词或数量词均作为疑问词剔除；如：“哪一年”这样的由疑问词和数量词构成的词将作为疑问词被剔除；(3) 去除停用词。如：“的”、“在”、“于”等等。同时去除介词、助词和标点符号；(4) 将剩余的词作为关键词，构成查询条件（关键词之间简单地以空格分隔，构成一个“布尔或”查询）。3.2 训练分类器训练分类器的目的在于：找出候选答案所在的句子的特征与候选答案是否为正确答案的一种潜在的映射关系，是实现候选答案分类的基础，具体实现步骤如下：(1) 将上面生成的查询条件提交给Google搜索引擎，保存检索返回的前100个文本片断；(2) 根据问题的类型，利用命名实体（人名、地名、机构名、时间词、数量词

14、）识别技术，识别出与问题类型对应的命名实体作为候选答案，然后计算候选答案在所在句子中的各个特征值，最后根据问题对应的标准答案，给候选答案加上类别标签（0：候选答案为非正确答案；1：候选答案为正确答案）；(3) 重复执行上面两个步骤，得到候选答案训练样本集，从而可以利用相应的分类器训练算法，训练得到用于分类的分类模型。3.3 答案提取答案提取是我们最后的目标，具体步骤如下：(1) 将问题查询词提交给搜索引擎，取得搜索引擎返回的前30个文本片断；(2) 根据问题类型，识别出每个文本片断中的候选答案，并计算候选答案所在句子的各特征值；(3) 利用训练好的分类器，预测各个候选答案的分类，并返回前5个结

15、果。4 基于句法依存分析的路径相似度计算本节详细阐述提取句子句法特征时所要使用的关键技术：基于句法依存分析的路径相似度计算。4.1 句法依存分析句法分析（parsing）是自然语言处理领域研究的关键问题之一，属于浅层语义分析中的重要内容，在机器翻译、信息抽取和自动问答等多个领域中有着广泛而重要的应用，而基于依存语法的句法分析（简称句法依存分析）是目前句法分析的主要方法之一。依存语法是1959年由法国语言学家L. Tesiniere在其著作结构句法基础一书中提出的。此语法的核心思想是：句子中述语动词是支配其它成分的中心，而它本身却不受其它任何成分的支配，所有的受支配成分都以某种依存关系从属于其支

16、配者。依存语法的句法结构的主要元素是依存关系（dependency relationship），即句子中词对的二元关系，其中一个记为核心词（head），另一个记为依存词（dependent）。依存关系反映的是核心词和依存词之间语义上的依赖关系。对于事实性问题“中国是在哪一年恢复了在联合国的合法席位？”，利用哈尔滨工业大学信息检索研究室提供的汉语句法依存分析器进行解析的结果如图1所示。Fig.1 An Example of Syntax Dependency Parsing图1 句法依存分析的一个例子句子进行解析后得到的结果，我们将其简称为依存树，其中的词称为依存树的结点。如果两个词之间有弧相连，则表示它们之间存在依存关系。

展开阅读全文