片语式机器翻译中未知词与落单字的问题

上传人:ldj****22 文档编号:35326276 上传时间:2018-03-14 格式:PDF 页数:15 大小:845.11KB
返回 下载 相关 举报
片语式机器翻译中未知词与落单字的问题_第1页
第1页 / 共15页
片语式机器翻译中未知词与落单字的问题_第2页
第2页 / 共15页
片语式机器翻译中未知词与落单字的问题_第3页
第3页 / 共15页
片语式机器翻译中未知词与落单字的问题_第4页
第4页 / 共15页
片语式机器翻译中未知词与落单字的问题_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《片语式机器翻译中未知词与落单字的问题》由会员分享,可在线阅读,更多相关《片语式机器翻译中未知词与落单字的问题(15页珍藏版)》请在金锄头文库上搜索。

1、 片語式機器翻譯中未知詞與落單字的片語式機器翻譯中未知詞與落單字的片語式機器翻譯中未知詞與落單字的片語式機器翻譯中未知詞與落單字的問題問題問題問題探討探討探討探討 *蔣明撰 +黃仲淇 *顏合淨 *黃士庭 *張俊盛 + + 楊秉哲 + + 谷圳 *國立清華大學資訊工程學系 +國立清華大學資訊系統與應用研究所 + + 資訊工業策進會 raconquer, u901571, fi26.tw, koromiko1104, + + maciaclark, cujingiii.org.tw 摘要 近年來,機器翻譯技術蓬勃發展並越顯重要。然而,現存的機器翻譯系統對於系統未 收錄未知詞多採直接輸出到目標翻譯

2、的方式。此忽略的舉動可能造成未知詞附近的選 字錯誤,或是其附近的翻譯字詞順序錯置,因而降低翻譯品質或降低閱讀者對翻譯文章 的理解。經過我們的初步分析,大約有 25%的系統未知詞可用重述paraphrase的方式 來作翻譯,另外的 25%可利用組合單字翻譯來翻譯。另外,現有的片語式phrase-based 機器翻譯系統對於落單字singleton的翻譯效果也未加重視。所謂的落單字是指系統 在翻譯此字時必須單獨翻譯:此字沒法與前面或是後面的字組合成連續字詞片語或是文 法翻譯結構。本研究將建構於片語式機器翻譯處理技術,開發未知詞翻譯模組和落單字 翻譯模組。實驗結果顯示即使在不假額外的雙語資料,我們的

3、未知詞翻譯模組仍勝出片 語式翻譯系統,尤其是在包含有未知詞的句子上。 關鍵詞:未知詞,重述,片語式機器翻譯系統,落單字,機器翻譯 一、緒論 近年來,機器翻譯技術蓬勃發展並越顯重要。然而,現今先進的片語式機器翻譯系統對 於系統未收錄未知詞與落單字singleton的處理仍有改進的空間。翻譯系統對於 來源語source language未知詞採直接輸出到目標target language翻譯的方式,也就 是說,系統並不處理未知詞。此忽略的舉動可能造成未知詞附近的選字錯誤,或是其附 近的翻譯字詞順序錯置,因而降低翻譯品質或降低閱讀者對翻譯文章的理解。片語式機 器翻譯系統之所以可以有令人滿意的翻譯效果

4、在於其翻譯的過程常常是多個連續的來 源語字詞一起翻譯到目標語。多個字詞一起翻譯的過程幫助了這些字詞翻譯的解歧,也 就是所謂的字義解歧 Word Sense Disambiguation 亦或是字詞翻譯解歧 Word Translation Disambiguation 。以中文字起為例。 起有相當多的字義如起床 、 上升 、 動 身 、 發揮 等。不同字義的 英文 翻譯也都不盡相同。而片語式翻譯系統則會將 起 跟其周遭連續的字的 、 很和早一起看作是一個片語並翻譯成“get up very early”。換言之,解歧成起床字義。很少文獻針對片語式機器翻譯系統中的落單字 翻譯效果進行分析。所謂的

5、落單字是指系統在翻譯此字時必須單獨翻譯:此字無法與前 面或是後面的字組合成連續字詞片語或是文法翻譯結構。落單字必然是片語式翻譯系統 的自然天敵。目前系統多靠語言模型Language Model來選擇落單字的翻譯。伽是語79言模型受限於字數限制,也不考慮像是字詞詞性等語言現象,大多數選擇最高頻的翻 譯。落單字的翻譯解歧效果直接影響了翻譯之品質。 首先 , 我們分析了 NIST MT-08 的測試句 。 美國 NIST National Institute of Standards and Technology幾乎每年都會舉辦 MT 的比賽來促進自動翻譯研究的發展。經過我們的初 步分析,大約有 2

6、5%的系統未知詞可用重述paraphrase的方式來作翻譯,另外的 25% 可利用組合單字翻譯來翻譯。重述就是將未知詞轉換成意思相近伽現於現有雙語語料中 的字詞。重述的論文探討已經相當多且齊全。在這個計畫中,我們將著重在跟重述佔有 相同重要角色的組合單字翻譯上。我們利用組合單字的翻譯來翻譯未知詞。我們的處理 方法不假額外的雙語資料文獻多直接藉由擴大雙語語料來減少未知詞 ,只利用現存 的訓練資料來尋找可能的單字翻譯,也就是,系統已知字詞in-vocabulary翻譯。更 精確的來說,我們組合排列現有的雙語訓練資料中未知詞的構成字之翻譯,並加以排序 以得到較為可能的未知詞翻譯。例如:藉由雙語資料中

7、上的翻譯 upper、above、rise 等,以及肢的翻譯 body、limbs 等可組合出 NIST MT-06 未知詞上肢的翻譯 upper limbs。類似的方法可以組合出形容詞-名詞複合字未知詞韓戰 Korean war ,名詞- 名詞複合字未知詞邊貿 border trade ,動詞-形容詞複合字未知詞成名 become famous之翻譯。其中, 邊貿也是目前最尖端的翻譯系統 Google Translate 之未知詞。 另外,在針對片語式機器翻譯中落單字的翻譯時,我們發現,隨機抽樣 NIST MT-08 的五十中文句中,落單字佔全文比例高於 6%,落單字又以名詞、動詞居多,各佔

8、 72%、 21%。人工分析系統對於不同詞性字詞的翻譯品質差異很大,名詞可達五成正確率 precision ,伽是動詞只到兩成。分析 NTCIR 2011 年專利翻譯比賽的發展中資料,也 顯示了類似比例落單字佔全文比例約 5%。由上面幾組數據,我們知道落單字跟未知 詞一樣,都是片語式機器翻譯系統急須面對處理的課題。我們預計利用動詞-名詞 或是動詞-副詞搭配詞collocation來幫助落單字的解歧,以增加片語式機器翻譯 系統之翻譯品質。畢竟,落單字要解歧就需要看稍微遠一點的字詞context ,而搭配 詞往往又是幫助解歧的有用資訊 一個搭配詞一個字義 one sense per colloca

9、tion 。 以 起 和打擊這兩個多義字來作說明。它們的翻譯可能為 get up、rise、increasing、play、 have 等,和 fight、combat、batting、bat 等。伽是當起的附近有搭配詞早時 get up 較有可能,當附近有名詞搭配詞作用時 play、have 較有可能此時的起有發 揮的意思 。類似地,當打擊附近有搭配詞犯罪出現時 fight、combat 較有可 能,而當其附近出現區 , 棒球時,則是 batting、bat 較為可能。由上面的例子, 我們預期:不一定緊密相鄰的動詞-名詞或是動詞-副詞搭配詞,或稱為有彈性 的搭配詞flexible collo

10、cation ,將可幫助片語式機器翻譯中落單字解歧。 本研究將建構於現有片語式機器翻譯處理技術,例如公開原始碼的 Moses 翻譯系 統,開發未知詞翻譯模組和落單字翻譯模組。未知詞翻譯模組將從現存的雙語訓練資料 中尋找未知詞構成字之翻譯,進而組合、排序未知詞的翻譯候選利用雙語對應機率和 單語流暢度加以排序 。 排序好的翻譯候選將利用 XML 標記方法輸入片語式機器翻譯系 統以作句子翻譯。落單字翻譯模組則會先利用大量的中文語料如:Chinese Gigawords 抽取出數學統計上可能的搭配詞如起作用 、 打擊犯罪等。然後藉由這些搭配 詞來為落單字解歧。解歧完後的落單字翻譯也是利用 XML 標記

11、方法將翻譯候選提供給 真正作句子翻譯的片語式機器翻譯系統。所以我們的方法除了使用雙語資料外,也會利 用中文語料與英文語料如: English Gigawords取得中文搭配詞和英文語言模型。 80二、研究方法The Method 本研究的範圍在於解決一般機器翻譯最常忽略的未知詞翻譯問題還有落單字的翻譯解 歧問題。目標是,在現有雙語訓練語料中,為未知詞找出翻譯並有效排序翻譯候選,另 外,正確替落單字解歧,提升機器翻譯品質亦或是幫助閱讀者閱讀。我們將在以下章節 詳述建構在現有片語式機器翻譯系統之上的未知詞翻譯模組和落單字解歧模組。 (一) 未知詞翻譯模組 未知詞翻譯模組針對未收錄於機器翻譯訓練語料

12、的字詞產生並依照可能機率排列其翻 譯候選。此模組可分為兩個子模組組成字模組和重述模組目前我們較著重在文獻較 少提到的組成字模組 。 1. 組成字模組 未知詞是系統未收錄的字詞,也就是,利用完全無誤比對exact-match來查詢雙語語 料以得目標語翻譯必定是徒勞無功的。此模組將原本完全無誤比對exact-match的翻 譯查詢轉換成一連串的部分比對partial-match查詢以先求得未知詞構成字的翻譯。接 著從這些查詢回來的雙語配對phrase pair中,擷取出未知詞組成字的可能翻譯。最 後,藉由組合組成字翻譯來翻譯未知詞,並且參考雙語字層級character-level翻譯機 率和目標語

13、的語言模型來排序未知詞翻譯候選。步驟大綱如下。 步驟一步驟一步驟一步驟一: ? ?wildcard? ? ?*?*? ? ?, appeal for? ? ?, increasing of? ? ?, upper block?, the body? ? ?, four limbs? ? ?, prosthesis? 步驟二步驟二步驟二步驟二:上一個步驟得到的是來源語的字詞翻譯而不是未知詞組成字的翻譯,也就 是,不是字層級character-level的翻譯。所以此步驟首先擷取出組成字的翻譯可能。 我們是利用 N-gram 來擷取出組成字的可能翻譯。以翻譯配對上段, upper block和四

14、肢, four limbs為例。未知詞的組成字上和肢的可能翻譯分別是“upper”、 “block”、“upper block” 和 “four”、“limbs”、“four limbs”。值得注意的是, 產生 N-gram 時,我們會考慮其變化型。這些產生的 N-gram,其實詞例如名詞、動詞 等限定必須出現在一個大的字詞語料庫中例如 WordNet ,如果沒被此大的語料庫 所包含將被剔除畢竟一個沒被字詞語料庫包含的實詞,其 N-gram 應該也不是怎樣好 的翻譯候選。最後,我們排除低頻的 N-gram。為了公平的比較,次數是變化型的累加 並共享。為了得到原形化資訊,我們實作時,利用 NLT

15、K 中提供的原形化器Bird 等 人, 2008 。表一呈現步驟一和步驟二的個別產物。 81?:? ? ? ? ? phrase ? ? N-grams ? ? ? ? the body extremities four limbs prosthesis ? ? ? ? ? ? ? ? body extremity extremities four limb limbs four limbs prosthesis ?:所有組成方法和特色組成方法所產生的雙語關聯例子? ? ? source phrase translation ?All Constituent ?Salient Constituent ? ? limb limb (?, limb) (?, limb) (?, limb) (?, limb) (?, limb) ? limb (?, limb) (?, limb) (?,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号