融入句型信息的汉英双向调序模型

上传人:夏** 文档编号:570156397 上传时间:2024-08-02 格式:PPT 页数:26 大小:154.51KB
返回 下载 相关 举报
融入句型信息的汉英双向调序模型_第1页
第1页 / 共26页
融入句型信息的汉英双向调序模型_第2页
第2页 / 共26页
融入句型信息的汉英双向调序模型_第3页
第3页 / 共26页
融入句型信息的汉英双向调序模型_第4页
第4页 / 共26页
融入句型信息的汉英双向调序模型_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《融入句型信息的汉英双向调序模型》由会员分享,可在线阅读,更多相关《融入句型信息的汉英双向调序模型(26页珍藏版)》请在金锄头文库上搜索。

1、融入句型信息的汉英双向调序模融入句型信息的汉英双向调序模型型 张家俊、宗成庆 中科院自动化所 2008.11.281背景o自从IBM翻译模型的提取,特别是基于短语的翻译模型提出后,调序模型始终是统计机器翻译的关键问题,是研究的热点o从基于距离的扭曲模型、词汇化的调序模型到层次化的短语翻译模型、最大熵调序模型,都非常有效地提高了翻译质量2想法o这些模型没有充分利用语言所固有的语法信息,在不需要调序的地方浪费了大量的计算时间o这些模型没有充分利用句子的先验知识,譬如句型,因为不同的句型具有不同的调序策略3句型在调序中的作用o几个例子:4句型调序分析o特殊疑问句中至少有一固定的短语(我们称为特殊疑问

2、短语)在翻译成英语时通常出现在句首;o一般疑问句在翻译时有特定的例如can, do, is等引导词;o在非疑问句中,有很大比例的句子中出现介词短语、时间地点短语,这些短语在汉语中出现在动词前,而在翻译时一般出现在动词的后面5口语语料分析o 我们分析277k 中英对齐句对发现,大约 17.2% 是特殊疑问句, 约 25.5% 为一般疑问句,其余为非疑问句。o可见在口语翻译中,基于句型的调序是非常有意义且具有研究价值的6基于句型调序的翻译框架(汉英)oC1:特殊疑问句,C2:一般疑问句,C3:非疑问句英 语 输出C1C3C2汉 语 输入句子后向、前向调序模型 后向调序模型翻译引擎分类器后向调序模型

3、7基于句型调序的翻译框架(英汉)oC1、C2和C3的意义同上图,“逆”表示与上图的算法相似但调序方向相反 C1C3C2英 语 输入句子逆后向、前向调序模型 逆后向调序模型汉语结果输出分类器逆后向调序模型英 汉 翻译引擎8模型与算法o句型的分类算法:SVM-basedo前向调序模型、逆前向调序模型o后向调序算法、逆后向调序模型9句型分类算法oSVM的优势,分类准确,几乎不受标点的影响 (我们知道标点是句型关键性的特征)o实验:n语料:三类句型分别问1000句,80%作为训练,20%作为测试n实验结果:10前向调序模型o适用句型:特殊疑问句o调序对象:特殊疑问短语o调序的两个关键问题:u特殊疑问短

4、语的识别u正确的调序位置11调序的两个关键问题o特殊疑问短语的识别u我们在语法上给特殊疑问短语一个定义:包含特殊疑问词的完整的语法成分。u特殊疑问词是利用互信息得到的一个闭集:什么、哪、多(多长、多久)、怎、谁、几、为什么、何u在汉语中,从语法层面看来,特殊疑问短语可能会是任何一类语法成分,从语法层无法识别u我们采用chunking的浅层句法分析来识别特殊疑问短语12调序的两个关键问题o正确的调序位置u分析翻译实例我们发现,调序的位置分为3类:句首、子句首、特定模板短语(从对齐语料习得)后u分别举例:这个 味道 怎么样 ?=怎么样 这个 味道 ?请问 , 去 海滩 怎么 走 ? =请问 , 怎

5、么 走去 海滩 ?你 认为 到 那 要 多长 时间 ?=你 认为 要 多长 时间 到 那 ?13逆前向调序模型o适用句型和处理对象与前向模型一样o面向英汉翻译任务n对翻译结果的修正o同样面临调序的两个关键问题:u特殊疑问短语的识别u正确的调序位置14调序的两个关键问题o特殊疑问短语的识别同前向模型o调序的目标位置:n特殊疑问句的结构n调序规则15调序的两个关键问题o特殊疑问句的两种结构n作为强调部分出现在句末 n作为动词短语的修饰成分出现在动词短语的前面 o调序规则n若SQP为动词短语,则将其调至包含该SQP的子句末尾 n若SQP不是动词短语,而且中有动词短语,则保持其位置不变;否则将其调至包

6、含该SQP的子句末尾 16后向调序模型o针对句型:所有句型o调序对象:在翻译中最有可能调序的短语=介词短语、时间地点短语o调序的两个关键问题u介词短语、时间地点短语与动词短语的识别u调序策略17调序的两个关键问题o介词短语、时间地点短语与动词短语的识别u采用chunking浅层句法分析u虚拟动词短语(VVP)的定义:由于识别错误等原因,有时在介词短语、时间地点短语后没有识别出动词短语。为加强该模型的适应性,我们定义自此介词或时间地点短语后到子句的结束为伪动词短语,并赋予其动词短语的功能。u例:请 在 这里 签名 。“签名”被识别为NP,在我们的模型中,它就是VVP18调序的两个关键问题o调序策

7、略:利用最大熵模型决定识别出的介词或时间地点短语是否需调序到紧跟着它们的动词短语后。o调序规则:19逆后向调序模型o面向英汉翻译任务o介词短语、时间地点短语等的识别方法同后向模型o调序方向相反20逆后向调序模型o调序规则21实验设计与结果obaseline:u利用我们实验室实现的基于短语的统计机器翻译系统o利用单调的解码策略22实验设计与结果o语料说明:表1:汉英翻译相关语料 表2:英汉翻译相关语料句子数训练语料汉语32,4626英语32,4626开发集汉语534英语测试集汉语504句子数训练语料汉语31,1438英语31,1438开发集汉语325英语测试集汉语49823实验设计与结果o实验结果:表3:汉英翻译实验结果 表4:英汉翻译实验结果BLEU(%)BASELINE37.45STR40.18BLEU(%)BASELINE0.5037STR0.510524总结与展望o句型信息对口语翻译的帮助非常大o研究汉语的特点才能更有效地提高机器翻译质量2526

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 幼儿/小学教育 > 幼儿教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号