中文问答系统中的问题分类研究

上传人:E**** 文档编号:113632939 上传时间:2019-11-09 格式:PDF 页数:52 大小:2.15MB
返回 下载 相关 举报
中文问答系统中的问题分类研究_第1页
第1页 / 共52页
中文问答系统中的问题分类研究_第2页
第2页 / 共52页
中文问答系统中的问题分类研究_第3页
第3页 / 共52页
中文问答系统中的问题分类研究_第4页
第4页 / 共52页
中文问答系统中的问题分类研究_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《中文问答系统中的问题分类研究》由会员分享,可在线阅读,更多相关《中文问答系统中的问题分类研究(52页珍藏版)》请在金锄头文库上搜索。

1、合肥工业大学 硕士学位论文 中文问答系统中的问题分类研究 姓名:高艳影 申请学位级别:硕士 专业:计算机应用技术 指导教师:田卫东 2011-04 中文问答系统中的问题分类研究 摘 中文问答系统中的问题分类研究 摘 要要 问答系统是一种能理解使用自然语言描述的问题, 并在海量信息中进 行问题答案的准确定位查找和答案合成的智能信息处理系统, 是数据挖掘 领域的研究热点之一。问题分类则是问答系统处理问题过程中,用于对使 用自然语言描述的问题进行分类,尽量搜集充分的与问题相关的信息,以 提高问答系统后续环节处理的准确性和处理效率。 本文主要针对中文问答系统中的问题分类进行研究, 利用中文语言和 中文

2、问题的特点以进一步提高中文问题的分类精度, 达到改善中文问答系 统性能的目的。 本文的主要研究工作如下: (1)在观察和分析中文问题中的疑问词和中心词与问题分类之间关 系的基础上,对基于词性和启发式规则来抽取疑问词和中心词方法,给出 两种词性修正方法以提高抽取的准确率,并根据自学习方法进行规则训 练;设计了一种采用自学习规则和贝叶斯模型相结合的问题分类方法,该 方法克服了规则方法覆盖率不高的缺点。实验表明了该方法的有效性。 (2)为进一步提高中心词抽取方法的准确性,本文就句法结构信息 在中文问题分类中的应用进行了探讨, 设计了一种利用句法结构信息抽取 中心词的方法,并建立了相关抽取规则。实验验

3、证了该方法的有效性。 关键词关键词: 中文问答系统;问题分类;自学习规则;层次分类;句法结构 Research on the Questions Classification in the Chinese Question Answering System Abstract Abstract Chinese Question Answering System, which is a research focusing areas in data mining, is an intelligent information processing system which can understan

4、d the issues described in natural language,locate the correct position of the answer and synthesize answer from the mass information. Question classification, as a key step in the process of Question Answering System, is used to classify the question described in natural language, and to try to coll

5、ect sufficient information related to the question for improving the accuracy and efficiency of the following process steps in Question Answering System. Main work of this dissertation is to study question classification in the Chinese Question Answering system, and try to find a new classification

6、method making use of the characters of Chinese and Chinese questions to improve the classification accuracy of the Chinese questions, and at last to improve the performance of the Chinese Question Answering System. This research provides some new insights into Chinese question classification: (1) On

7、 the basis of the investigation on the relation between key words, such as question words and headwords, and questions category,for extracting question words and headwords more accurate, two methods based on part-of-speech-fixing, which are used to improve the performance of the existing method base

8、d on part-of-speech and heuristic rules, are given. And a question classification method combining rules and Bayes, which can overcome the faults that rules coverage is not high, is designed too. Empirical results show the validity of the method. (2) To solve the shortcomings of headwords extraction

9、 in previous method, the application of syntactic structure information in classifying Chinese questions is studied, and a headwords extraction method using syntactic structure is designed and some extraction rules are set up at the same time. Empirical results show the validity of the method. Keywo

10、rds: Chinese Question Answering System; Question Classification; self-learning rules; syntactic structure; hierarchical classification 插图清单插图清单 图 1-1 问答系统的体系结构 .2 图 1-2 LIP 平台中各模块之间的依赖关系 .7 图 2-1 改进贝叶斯分类流程图 . 14 图 2-2 细类分类精度比较 . 17 图 2-3 粗类分类精度比较 . 17 图 3-1 规则自学习的流程图 . 22 图 3-2 部分 QCR 规则 23 图 3-3 部分

11、 QHCR 规则 24 图 3-4 层次分类的流程图 . 25 图 3-5 具体各个类上分类精度比较 27 图 3-6 不同组合方法按类统计的分类精度对比 27 图 3-7 不同的问题集的准确率对比 28 图 4-1 X结构图 30 图 4-2 依存关系分析结果 . 32 图 4-3 疑问词和其它词存在的 DE、ATT 和 SBV 关系. 33 图 4-4 具体分类步骤 34 图 4-5 QCR-PQHCR-MB 分类精度. 35 图 4-6 各种组合的分类精度对比 35 图 4-7 各方法分类精度对比 . 35 图 4-8 两种方法按类统计的分类精度对比 . 36 图 4-9 不同中心词规则

12、和改进贝叶斯相结合的分类精度 . 36 图 4-10 两种方法的规则分类精度对比.37 图 4-11 规则参与分类的问题数对比 . 37 图 4-12 有句法结构信息的分类精度比较 . 37 表格清单表格清单 表 2-1 TREC 会议上比较有代表性的分类体系 15 表 2-2 中文问题分类体系 . 16 表 3-1 常见疑问词 18 表 3-2 ICTCLA3.0 系统的词性标注分类 20 表 3-3 词性修改前后的分类精度对比 . 26 表 3-4 各方法分类精度对比 27 表 3-5 QCR-QHCR-MB 中各方法的分类数 28 表 4-1 Minipar 使用的几种依存关系 31 表

13、 4-2 LIP 平台中的依存关系类型 31 独 创 性 声 明 独 创 性 声 明 本 人声 明 所 呈交 的 学 位论 文 是 本人 在 导 师指 导 下 进行 的 研 究工 作 及 取得 的 研 究成 果 。 据我 所 知 ,除 了 文 中特 别 加 以标 注 和 致谢 的 地 方外 , 论 文中 不 包含其他 人已经发表或撰写过的研究成果,也不包含为获得 合肥工业大学 或其他教育 机构 的 学 位或 证 书 而使 用 过 的材 料 。 与我 一 同 工作 的 同 志对 本 研 究所 做 的任何贡 献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:高艳影 签字日期: 2011年

14、 4月 28 日 学位论文版权使用授权书 学位论文版权使用授权书 本学位 论 文 作 者 完 全 了 解 合 肥 工 业 大 学 有 关 保 留 、 使 用 学 位 论 文 的 规 定 , 有权 保 留 并向 国 家 有关 部 门 或机 构 送 交论 文 的 复印 件 和 磁盘 , 允 许论 文 被查阅和 借阅。本人 授 权 合 肥 工 业 大 学 可 以 将 学 位 论 文 的 全 部 或 部 分 内 容 编 入 有 关 数 据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 (保密的学位论文在解密后适用本授权书) 学位论文作者签名:高艳影 导师签名:田卫东 签字日期:

15、2011 年 4 月28 日 签字日期: 2011年4 月28日 学位论文作者毕业后去向: 工作单位: 电话: 通讯地址: 邮编 1 第第1章 绪论章 绪论 随着网络的普及和信息的大量共享,网络用户拥有的数据正在呈爆炸式增 长。网络用户们在拥有海量数据的同时,如何进行准确的信息定位成为他们新 的困扰。虽然各种搜索引擎的出现给用户搜索信息带来了很大的便利,但传统 的搜索引擎一般不接受自然语言描述的查询,其查询的基础仍是关键词。并且 返回的是与关键词相关的全部文档, 用户必须自己从海量相关信息中寻找答案, 即传统搜索引擎缩小了用户的查找范围,很少能直接给出用户想要的结果。随 后出现的“百度知道”、

16、“搜索问答”等工具,可以接受自然语言提问并直接 给出答案,但这类工具一般需要人工来提供答案,具有很大的依赖性和主观性。 显然信息检索方式需要进行改革,自动问答系统便应运而生。 最近一台名为“沃森 1”的超级计算机在网络上名声大噪,而它其实就是一 种问答系统。“沃森”是由IBM开发推出的新一代智能计算机,该计算机能迅速 回答涉及双关语和文字游戏等非常复杂的问题。开发沃森的主要目的就是使计 算机拥有与人类相似的回答问题的能力。而要具备这种能力的前提条件就是要 有足够的处理速度、准确率和置信度,并能理解和使用自然语言来理解问题并 回答问题。这些前提条件的研究是所有问答系统都要面临的问题,也是本文研 究的大背景。 1.1 研究背景与意义 1.1 研究背景与意义 1.1.1 问题分类的研究背景 自动问答系统是可以理解用户以自然语言提出的问题,经过信息检索后, 返回给用户一个准确、 简洁答案的系统。 如问题 “中国的现任国家主席是谁?” , 返回答

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号