(毕业设计论文)《一种基于AdaBoost.MH算法的汉语多义词排歧方法》

上传人:zhuma****mei1 文档编号:54411213 上传时间:2018-09-12 格式:DOC 页数:63 大小:720KB
返回 下载 相关 举报
(毕业设计论文)《一种基于AdaBoost.MH算法的汉语多义词排歧方法》_第1页
第1页 / 共63页
(毕业设计论文)《一种基于AdaBoost.MH算法的汉语多义词排歧方法》_第2页
第2页 / 共63页
(毕业设计论文)《一种基于AdaBoost.MH算法的汉语多义词排歧方法》_第3页
第3页 / 共63页
(毕业设计论文)《一种基于AdaBoost.MH算法的汉语多义词排歧方法》_第4页
第4页 / 共63页
(毕业设计论文)《一种基于AdaBoost.MH算法的汉语多义词排歧方法》_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《(毕业设计论文)《一种基于AdaBoost.MH算法的汉语多义词排歧方法》》由会员分享,可在线阅读,更多相关《(毕业设计论文)《一种基于AdaBoost.MH算法的汉语多义词排歧方法》(63页珍藏版)》请在金锄头文库上搜索。

1、w摘摘 要要 词义排歧在机器翻译、信息检索、句子分析和语音识别等许多领域有重要的作用。因此在自然语言处理领域,词义排歧方法的研究具有重要的理论和实践意义。本文主要研究在标注语料库支持下的基于有指导学习算法的词义排歧方法。在词义排歧模型中引入有指导的AdaBoost.MH 算法。首先通过简单决策树算法对多义词上下文中的知识源进行学习,产生准确率较低的弱规则;之后,通过AdaBoost.MH 算法对这些弱规则进行加强;经过若干次迭代后,最终得到一个准确度更高的规则,即为最终的排歧模型。论文还针对系统的学习效率和实用性给出了一种简单终止算法迭代的方法。为获取多义词上下文中的知识源,本文在采用传统的词

2、性标注和局部搭配序列等知识源的基础上,引入了一种新的知识源,即语义范畴。 实验结果表明语义范畴知识源的引入有助于提高算法的学习效率和排歧的正确率。建立有指导学习算法所需的大规模人工标注语料是相当困难的,本文提出了一种通过WWW 资源自动构建适合汉语多义词排歧的标注语料的方法。并通过实验验证了这种语料库的可用性。在对6 个典型汉语多义词和SENSEVAL3 中文语料中20 个汉语多义词的词义消歧实验中,AdaBoost.MH 算法获得了较高的开放测试正确率 (85.75%和75.84%)。关关键键词词:自自然然语语言言处处理理;词词义义排排歧歧; A Ad da aB Bo oo os st t

3、. .M MH H 算算法法;知知识识源源wAbstractWord sense disambiguation (WSD) plays an important role in many areas of natural language processing such as machine translation, information retrival, sentence analysis, speech recognition. The research on WSD has great theoretical and practical significanceThe main wo

4、rk in the dissertation is to study the supervised learning algorithm learning WSD knowledge from many kinds of resources based on large sense-tagged Chinese corpus.An approach based on supervised AdaBoost.MH learning algorithm for Chinese word sense disambiguation is presented. AdaBoost.MH algorithm

5、 is employed to learn WSD knowledge from many kinds of resources and to boost the accuracy of the weak stumps rules for decision trees and repeatedly calls a learner to finally produce a more accurate rule. A simple stopping criterion is also presented in view of the efficiency of learning and the u

6、tility of system.As for Chinese WSD, in order to extract more contextual information, we introduce a new WSD knowledge - semantic categorization as well as two classical knowledge sources: part- of-speech of neighboring words and local collocations. Experimental results show that the semantic catego

7、rization knowledge is useful for improving the learning efficency of the algorithm and accuracy of disambiguation. Due to the flexibility and complexity of bulding up a broad coverage semantically annotated corpus, an approach based on WWW search engines to automatically obtain annotated corpus for

8、Chinse WSD is presented.AdaBoost.MH algorithm has a higher disambiguation accuracy rates which are 85.75% and 75.84% in open tests for 6 typical polysemous Chinese words and 20 polysemous words from SENSEVAL3 Chinese corpus.Key Words:Natural Language Processing; Word sense disambiguation; AdaBoost.M

9、H algorithm;Multiple knowledge sourcesw目目 录录摘 要.IAbstractII引 言11 问题描述31.1 词义排歧的提出及其意义 31.1.1 词义排歧31.1.2 词义排歧研究的意义.41.2 国内外的研究状况51.2.1 有指导排歧方法51.2.2 基于词典的排歧方法.91.2.3 无指导的排歧方法.101.3 面临的主要问题111.3.1 上下文选择111.3.2 词义的划分121.4 词义排歧的评测方法121.5 本文的工作.122 面向WSD 的AdaBoost.MH 算法模型.142.1 基本概念.142.2 AdaBoost.MH 算法简

10、介.152.2.1 AdaBoost 算法背景152.2.2 AdaBoost 算法基本思想162.2.3 算法误差的分析182.2.4 多类分类问题202.2.5 AdaBoost 算法的优缺点.202.3 面向WSD 的AdaBoost.MH 算法描述.21w2.4 弱学习器的设计及的选取22tZ3 上下文特征的选择.253.1 相邻词的词性标注( POS).253.2 局部搭配信息263.3 语义范畴信息263.3.1 同义词词林简介.263.3.2 对同义词词林中未登录词的处理283.3.3 语义范畴信息的选取.294 汉语AdaBoost.MH - WSD 实验.304.1 语料库.

11、304.1.1 人民日报语料304.1.2 SENSEVAL3 中文语料.304.2 实验评测及结果314.2.1 人民日报语料实验结果与评测324.2.2 SENSEVAL3 中文语料实验结果与评测324.3 算法中迭代次数的确定344.4 语义信息的引入对排歧效果的影响 .354.4.1 人民日报语料实验.354.4.2 SENSEVAL3 中文语料实验.365 自动建立带标注的语料库的方法 385.1 自动构建标注语料库的模型.385.1.1 搜索关键字的建立.395.1.2 语料库的建立和修剪.405.2 语料库可用性的评测实验与分析 .425.2.1 语料库425.2.2 语料库中搜

12、索到的新搭配.425.2.3 上下文特征的选取.425.2.4 实验结果及评测42w结 论45参 考 文 献46附录ASENSEVAL3 中文语料示例49附录B标注语义范畴信息的语料示例 51附录C同义词词林语义信息示例53附录D同义词词林扩展版语义信息示例.54攻读硕士学位期间发表学术论文情况.55致 谢56大连理工大学学位论文版权使用授权书 .57w引引 言言计算语言学(Computational Linguistics)是一个横跨语言学、数学和计算机科学的新兴交叉学科1。它通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部

13、分乃至全部语言能力的目的2。计算语言学的研究工作分为两个方面。第一,从计算的角度来研究语言的性质;第二,将语言作为计算对象来研究相应的算法。所谓从计算的角度来研究语言的性质,就是要求将人们对语言的结构规律的认识以精确的、形式化的、可计算的方式呈现出来,而不是像其他语言学研究那样,在表述语言的结构规律时一般采用非形式化的表达形式。所谓将语言作为计算对象来研究相应的算法,就是研究如何以机械的、规定了严格操作步骤的程序来处理语言对象(主要是自然语言对象,当然也可以是形式语言对象),包括识别一个语言片断(比如词组、句子或篇章)中的大小语言单位,分析该语言片断的结构和意义(自然语言理解),以及如何生成一

14、个语言片断来表达确定的意思(自然语言生成),等等。自然语言处理(Natural Language Processing)是利用计算机技术研究和处理语言的一门学科,即把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。它属于计算语言学的算法部分1,并经过如下的过程 把需要研究的语言学问题加以形式化,使之能以一定的数学形式或者接近于数学的形式,严格而规整地表示出来;把这种严格而规整的数学形式表示为算法,使之在计算上形式化;根据算法编写计算机程序,使之在计算机上加以实现。自然语言处理是人工智能研究的最重要的课题之一。人类知识大都是

15、以语言的形式表示并流传下来的,据统计,在信息领域中80%以上的信息是以语言文字为载体的。自然语言处理的重大突破,将为知识获取开辟重要来源。同时它也将触发人机接口革命。它将使计算机具有听、说、读、写的能力,人们可以用自然语言和计算机交流,这将给使用者带了极大的方便。自然语言处理系统可以用作专家系统、知识工程、情报检索、办公室自动化的自然语言人机接口,有很大的实用价值。机器翻译将使人们跨越语言壁垒,让全世界的人顺利交流,让每个用户都能共享因特网的浩瀚信息和无限商机。w语言是音义结合的符号系统,而词是语言中能够独立运行的最小符号。因此,研 究语言符号的意义都以词作为基本单位 3。在自然语言处理领域,

16、词义排歧在机器翻 译、信息检索、句子分析和语音识别等自然语言处理的许多领域有十分重要的用途。 因此词义排歧方法的研究在自然语言处理领域具有重要的理论和实践意义。任何一个课题的研究与它所在的领域的研究方法息息相关,与当时所具有的各种条件密切相关,词义排歧问题的研究也不例外。它经历了基于直觉的理性主义方法,即定性的方法到基于观察的经验主义方法,即统计方法 5的发展过程。进入九十年代以后,随着计算机事业的蓬勃发展,计算机存储容量和运算速度的飞速提高,计算语言学的研究也进入了一个崭新的历史阶段,即语料库语言学的时期 3。通过使用大规模的语料库,计算机能够自动获得各种统计数据,以此来解决规则方法中知识空缺问题。在大规模真实文本处理中,基于统计的方法与基于规则的方法相比体现出以下优势:(1)统计方法获取的知识一致性好。而规则方法,由于每个人思考问题的不同,而会采取不同的处理方法,当需要添加新的规则时,又必须注意协调与已有规则的关系,避免规则之间产生矛盾。(2)统计方法比较灵活,覆盖面比较广,可以获

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号