开放域问答系统研究综述

资源描述

《开放域问答系统研究综述》由会员分享，可在线阅读，更多相关《开放域问答系统研究综述（24页珍藏版）》请在金锄头文库上搜索。

1、word开放域问答系统研究综述*本文受到国家自然科学基金（70903008，60933004），GI搜索引擎项目（GI2008-122），863 课题（2009AA01Z143），软件开发环境国家重点实验室开放课题（SKLSDE-2010KF-03)及973计划海量项目（2005CB321901）的共同支持。何靖1，翀2，闫宏飞1（1.大学，信息科学技术学院，100871；2.师大学，管理学院信息管理系，100875）: hjnet.pku.edu., chenchongbnu.edu., yhfnet.pku.edu.摘要：尽管搜索引擎能够满足网络用户的很多信息需求，但是还有很多它无法满足

2、。原因之一是它严格的用户界面：它的输入是关键词，它的输出是相关文档集。对于很多信息需求，更加合适的提问和回答方式是自然语言。开放域问答系统就是用于解决这一问题的。本文主要介绍开放域问答系统的系统框架，主要技术和评测方法。关键词：开放域问答系统；问题分析；信息检索；答案抽取A Survey: Open-domain Question Answering SystemHE Jing1, CHEN Chong2, YAN Hongfei11(Department of puter Science and Technology, Peking University, Beijing 10

3、0871, China)2(Department of Information Management, Beijing Normal University, Beijing, 100875, China): hjnet.pku.edu., chenchongbnu.edu., yhfnet.pku.edu.Abstract:Though Web users can find relative information with search engine, it cannot satify all information needs. One reason is that its interfa

4、ce to users is rigid: keywords as query and documents as output. However, for some information need, its more suitable to be queried and answered by natural language. Open-domain question answering system is designed to solve this problem. In this survey paper, we will introduce the framework and cr

5、itical techniques for an open-domain question answering system and present how to evaluate it.Keywords:Open-domain question answering, question analysis, information retrieval, answer extraction1 概述1.1 研究背景随着网络数据的快速增长，从海量网络数据中获得相关信息成为一个巨大挑战，搜索引擎在一定程度上解决了这个问题。在分析搜索引擎日志时发现，它包含一些自然语言表述的查询如“如何安装RedHat9

6、”。这表明互联网用户更加习惯于用自然语言来表达他们的某些信息需求。搜索引擎的输入是一组关键词，但是有时用户的信息需求很难用关键词确切地表达。同时，有时用户所需信息的粒度并不是一篇文档，而是一个描述性的段落、句子、结论、人名或数字等，但是搜索引擎对于一个查询返回的是一个文档集合，用户还需从中找出相关的容。这表明现有的搜索引擎服务和用户的实际信息需求之间存在着两个方面的“鸿沟”：系统要求的关键词表达方式与用户自然表达方式之间的鸿沟和系统返回信息的方式和用户需要返回的方式之间的鸿沟。如果能使用户以一种更加自然的方式和系统交互，用户可以自然而精确地表达他们的信息需求，系统能直接返回用户想要知道的容，就

7、能填平这条鸿沟。基于这样的需求，开放域问答系统成为信息系统领域中继搜索引擎之后的又一个热点。从技术层面来看，计算机处理能力的提升，信息检索、自然语言处理、人工智能等相关领域研究的发展也为问答系统的构建创造了条件。1.2 问答系统的历史问答系统并不是一个年轻的研究方向。五十年代，Alan Turing提出了著名的图灵测试。该测试的目的是测试计算机是否具有智能。为了鼓励进行图灵测试的研究，1991年Hugh Loebner设立了Loebner Prize，用于奖励第一个通过图灵测试的系统。十多年来，出现了PC Therapist, Albert等优秀的聊天机器人系统，它们的一些技术如问句答案的模式

8、匹配，对开放域问答系统很有借鉴价值。除此之外，还有一些基于知识库的问答系统研究32,33，包括基于本体的问答系统，受限语言的数据库查询系统，问答式专家系统等。这些系统受限于一定的知识领域和语言表达方式，不具有可扩展性。本文讨论的开放域问答系统和它们不同，具有两个特性： 1、它能够回答的问题不局限于一个或几个特殊的领域，而是不限定领域的；2、它是基于一套文档数据库（可以是新闻集合，也可以是整个Web），而且它只能回答那些答案存在于这个文档数据库中的问题。因此它是可扩展的，随着文档数据库的增加，它具有了更多的“知识”，就能回答更多的问题。最早的在线问答系统是由美国麻省理工大学Boris Kat

9、z等人开发START系统(start.csail.mit.edu/)，它自1993年12月正式提供服务至今，已经回答了数以百万计的问题，问题的类型包括位置，电影，人物，文化，历史，艺术，环境，词典定义等。 AskJeeves也是一个优秀的开放域问答系统（.ask.），和START不同，它返回的结果并不是一个精确的答案，而是包含答案的一系列段落。其他比较著名的在线系统还包括Brainboost(.answers.)和AnswerBus(.answerbus.)，它们返回的是包含结果的句子。为了推动开放域问答系统的发展，信息检索评测组织TREC（Text REtrieval Conference）

10、自1999年开始，设立了开放域问答的评测任务，已开展了10次评测，成为TREC中历时最长的评测任务。另外的一些著名评测组织如NTCIR和CLEF也已经设置问答系统评测的任务。可见，问答系统的研究已在领域受到非常强烈的关注。1.3 开放域问答系统的通用体系结构由于自然语言处理、信息检索、人工智能等相关领域技术的局限性，问答系统的回答能力也是有限的。Moldovan 25根据问答系统的能力，把它由弱到强分成了5类：l 能回答事实问题的系统：回答的容是一个事实，可以直接在文档里找到，一般是一个词或者一次词组。l 能回答具有简单推理问题的系统：回答的问题可能是文档里面的一个片断，需要系统简单的推理能力

11、。l 能够多文档信息综合回答的系统：需要从多个文档中分别找出答案并且以一定的方式进行组合展示给用户。l 交互式问答系统：答案是上下文相关的，即和用户已经提问的问题和系统已经返回的结果有关系。l 具有类推能力的系统：答案需要系统进行推理获得，可能无法在文档集合中直接找到。现有的开放域问答系统的能力，一般是介于前四类之间，主要处理那些能够通过直接从文档集中抽取答案就能回答的问题。这些问题主要包括事实类问题，列表类问题，定义类问题，关系类问题等。当前，不同的问答式系统会具有不同的体系结构。如8的系统包括主题提取，主题定义，段落检索，答案抽取四个模块， 28的系统包括问句分类，文档检索，句子抽取，

12、答案抽取，排序，消除重复答案等模块。虽然模块划分不同，但一般来说，所有的系统的模块都可以纳入三个大的部分，即问句分析，文档和段落的检索和答案的提取和验证。问句分析部分所需要完成的功能包括问句类型分析，问句主题识别，问句指代消解和问句语法分析等。问句分类是问答系统中一个很重要的环节，它需要把问句根据它的答案类型分到某一类别中，之后的检索和提取会根据问句类别采用不同的措施。在现有问答系统的解决方案中，很多都根据精细问句类型和精细实体答案的识别的对应关系来提取答案，所以他们尤其重视问句分类的性能。找出问句的主题，可以帮助检索部分首先找出和主题相关的文档和段落，便于进一步后续的处理。在某些系统交互式地

13、回答用户的提问，因此用户的问题中会出现一些指代词，因此需要根据上下文明确指代词在问题中具体所指。有的系统通过对问句进行语法分析，匹配问句的语法结构和包含答案句子的语法结构。文档和段落检索部分的功能是根据问句构造查询，利用一定的检索模型找到可能包含答案的文档或者段落。这里会涉及到的问题包括：采用什么样的信息检索模型，如何构造查询，如何对这些段落进行排序，如何追求查全率和查准率之间的折衷，检索阶段的性能和最终的系统总性能有什么样的关系等。答案的提取和验证是问答系统的最后一个部分，它的输出就是问句的最终答案。它分析检索获得的文档或者段落，从中提出能够回答问题的答案。在提取答案时，问句类型直接

14、决定如何生成候选答案集合。另外，某些问题的答案可能存在于知识库中或者Web上，这一步中可以通过察看知识库或者Web对答案进行验证。三大模块之间的流程和关系如图1所示：图1 问答系统的通用体系结构从上图可见，问题分析模块可以获得问句的主题、类型和语法结构。文档和段落检索模块从文档集合中获得相应的可能包括正确答案的段落集合。答案提取和验证模块根据前两个模块的输出以及通过知识库和Web上的知识获得最终的答案。下面就这三个模块进行详细的介绍。2 问句分析问句分析模块用于分析理解问题，从而协助后续的检索和答案提取。它的输入是由自然语言表述的问题，输出是问句对应的答案类型和问句主题等。 2.1 问句

15、分类问句分类是根据问句所问的目标（答案）的类型对问句进行分类，它是问句分析最重要的功能之一，因为答案类型直接影响后续步骤尤其是答案抽取的策略，比如对于问人物的问题，答案抽取模块首先就会把相关文档中出现的人物作为答案候选集合。最简单的问句分类通过疑问词直接决定问句的类型。在英语中，典型的有5W1H（What, Who, When, Where, Why, How）的问题，在中文中，也有类似的“谁”，“哪儿”这样的疑问词。但这种方法粒度太粗，特别对What，How这样的疑问词，可以对应非常多的答案类型。另外，有一些问句从句型上看是祈使句，不包含疑问词，如“列出长江流经的省份”，或者有一些问句包

16、含了多个疑问词，如英语中含有定语从句，宾语从句的情况，这种方法无法处理这些情况。因此应该有更加精细的分类体系和相应的分类方法。一些研究者提出了问句的分类体系结构，试图能够涵盖开放域中重要类型的问句，其中34的体系就是一个被广泛引用的问句分类体系（见表1）。这个问句体系包括了6个大类，分别是缩略语，描述，实体，人物，地点，数量。为了能够更好的帮助找到正确的答案，在6个大类下面又分了50个小类，譬如在实体类里面又有动物，颜色，创造者等等，在数量类里面又有日期，距离，钱数等等。问句分类的任务就是通过分类算法，把一个问句分到这样一个分类体系结构的一个或几个类中去（某些问句比较模糊，可能属于一个以上的类别）。现有的问句分类的方法主要包括基于模式匹配的和机器学习分类算法两类。第一种方法是每一种问题类型会对应一个模式集合，对于一个问句，只要和某种问题类型对应的模式匹配，就被认为是

展开阅读全文