基于特征融合的单语词对齐方法研究论文

上传人:小** 文档编号:47017551 上传时间:2018-06-29 格式:DOC 页数:55 大小:990.50KB
返回 下载 相关 举报
基于特征融合的单语词对齐方法研究论文_第1页
第1页 / 共55页
基于特征融合的单语词对齐方法研究论文_第2页
第2页 / 共55页
基于特征融合的单语词对齐方法研究论文_第3页
第3页 / 共55页
基于特征融合的单语词对齐方法研究论文_第4页
第4页 / 共55页
基于特征融合的单语词对齐方法研究论文_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《基于特征融合的单语词对齐方法研究论文》由会员分享,可在线阅读,更多相关《基于特征融合的单语词对齐方法研究论文(55页珍藏版)》请在金锄头文库上搜索。

1、国内图书分类号:TP391.2 国际图书分类号:681.37工学硕士学位论文基于特征融合的单语词对齐方法研究硕 士 研 究 生: 吕政华导师: 刘挺 教授申请学位级别: 工学硕士学 科 、 专 业: 计算机科学与技术所 在 单 位: 计算机科学与技术学院答 辩 日 期: 2009 年 6 月 23 日授予学位单位: 哈尔滨工业大学Classified Index: TP391.2 U.D.C.: 681.37Dissertation for the Master Degree in EngineeringRESEARCH OF MONOLINGUAL WORDALIGNMENT BASED O

2、N FEATURE INTEGRATIONCandidate:Supervisor:Academic Degree Applied for:Specialty:Affiliation:Date of Defence:Degree-Conferring-Institution:Lv ZhenghuaProf. Liu TingMaster of EngineeringComputer Science and TechnologySchool of Computer Science and TechnologyJune 23, 2009Harbin Institute of Technology哈

3、尔滨工业大学工学硕士学位论文摘要复述是自然语言中比较普遍的一个现象,它集中反映了语言的多样性。复 述研究的对象主要是短语或者句子的同义现象。复述技术已经被成功的应用到 信息检索、自动问答、信息抽取、自动文摘以及机器翻译等多个领域,有效地 提高了这些系统的性能。词对齐技术在复述的两个基本任务:复述识别和复述 生成中都起着非常重要的作用。 面向复述的词对齐相比于传统面向机器翻译的词对齐有以下几方面的特 点: 首先是语料规模受限。相对于双语平行语料,我们所能获得的单语平行语 料非常之少,而传统基于统计学的词对齐方法在语料规模方面又有着较高的要 求。其次,由于本文所讨论的对齐是面向复述的单语词对齐,具

4、有双语问题不 具备的一些特征,这些特征同时也是无法比拟的优势。比如,单语平行句对通 常具有相似的句法结构,而目前,句法分析工具也获得了可接受的应用性能。再如,单语问题有着较为丰富的语言学资源,HowNet、WordNet 都能在语言 学知识上为我们的对齐提供帮助。 综上,如何克服小规模语料的限制,充分利用单语问题的特点,提高自动 对齐的表现成为本文研究的重点。本文提出使用特征融合的方法来解决这些问 题。 我们采用了线性模型来融合特征,这是一种简单而又行之有效的特征融合 方法,易于进行各种特征的合并和拓展。我们选取的四大类特征分别是:词典 特征、统计特征、位置特征和上下文特征。这些特征从语言学、

5、统计学等多个 方面刻画描述对齐特点;我们采用感知器学习算法进行参数训练。此外,为了 提高解码效率,本文选择了模拟退火解码算法。 实验数据表明,我们选取的各类特征在词对齐问题上都有着不同程度的贡 献,参数训练方法可行有效,准确率和召回率方面相对于单纯的基于统计的方 法有着明显的提高。应用全部特征时达到了最佳实验效果,准确率和召回率较基准分别提高了3.55%和10.16%;综合指标F值达到81.74%,提高3.83%。关键词复述;单语词对齐;线性模型;特征融合;模拟退火- I -哈尔滨工业大学工学硕士学位论文AbstractParaphrasing is a kind of common phen

6、omenon in human languages. It reflects the diversity of natural language. The main research object of paraphrasing is the synonymity of sentences and phrases. The technology of paraphrasing has been already applied in Information Retrieval (IR), Question Answering (QA),Information Extraction (IE), A

7、utomatic Summarization and Machine Translation (MT), etc. The use of paraphrasing has been proved to be effective in these applications. Word alignment plays an important role in both paraphrase recognizing and paraphrase generating. Compared with traditional word alignment in Statistical Machine Tr

8、anslation (SMT), paraphrase-oriented word alignment has some distinguishing features: Firstly, we have only small-scale corpora. Compared with bilingual parallel corpora, monolingual corpora are more difficult to obtain. However, the traditional statistical alignment algorithms call for a large para

9、llel corpora to train the alignment model. Secondly, since this paper focuses on the paraphrase-oriented alignment problem, we have some features that bilingual problems do not have, which can be also treat as strong point. For example, monolingual parallel sentences always have similar syntax struc

10、tures while now syntax analysis tools can provide us acceptable results for application. Also, monolingual problems have richer linguist sources.HowNet, WordNet both can give us support from linguistics aspect. To sum up, how to overcome the limit of small-scale corpora, make use of the features of

11、monolingual problem to improve the results of auto alignment is the main research point of this paper. We are going to use multi-feature integration to resolve problems above. For feature integration, we use linear model which is simple and very effective. It is easy to integrate features or extend

12、them using linear model. In this paper, there are four kinds of features to be integrated. They are: Dictionary Feature, Statistic Feature, Position Feature and context Feature. They can describe alignment from both linguistic aspect and statistic aspect. Then we use perceptron learning algorithm to

13、 train the parameters. After considering the efficiency of the system, we use simulated annealing algorithm for decoding.- II -哈尔滨工业大学工学硕士学位论文The experiments shows that all the features do good to alignment, and the parameter training is effective. Both precision and recall have been significantly i

14、mproved. While using all features precision increased by 3.55% and recall increased by 10.16% against baseline, and F-measure reaches 81.74%, witch has a growth of 3.83%.Keywords Paraphrasing; Monolingual alignment; Linear model; Feature integration; Simulated annealing algorithm- III-哈尔滨工业大学工学硕士学位论文目录摘要 .I Abstract. II 第 1 章 绪论 . 1 1.1 课题背景与意义 . 1 1.2 主要研究内容及研究现状 . 2 1.2.1 复述任务与单语词对齐 . 2 1.2.2 词对齐的主要研究内容 . 2 1.2.3 国内外研究

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 宣传企划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号