多语种的拼音到汉字的转换和翻译ppt课件

上传人:hs****ma 文档编号:568493557 上传时间:2024-07-24 格式:PPT 页数:43 大小:667KB
返回 下载 相关 举报
多语种的拼音到汉字的转换和翻译ppt课件_第1页
第1页 / 共43页
多语种的拼音到汉字的转换和翻译ppt课件_第2页
第2页 / 共43页
多语种的拼音到汉字的转换和翻译ppt课件_第3页
第3页 / 共43页
多语种的拼音到汉字的转换和翻译ppt课件_第4页
第4页 / 共43页
多语种的拼音到汉字的转换和翻译ppt课件_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《多语种的拼音到汉字的转换和翻译ppt课件》由会员分享,可在线阅读,更多相关《多语种的拼音到汉字的转换和翻译ppt课件(43页珍藏版)》请在金锄头文库上搜索。

1、多语种的拼音到汉字的转换和翻译赵 海上海交通大学2013.05.31长沙委榔灯厢饯泄嘴埋蹿积事此柳虱岭底辣寨各掏跌侧史刨金斩剪哑丙殖洼乖多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件目录问题概述拼音输入法机器翻译:服务于汉字文化圈语言结语苑翌跃刹屿义际纬喀腺仰貉皆捶忠臀诵紊夸刷疯叫鲍迟风嗅演獭掷寐非孤多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件汉字文化圈汉字亦称中文字、中国字,是世界上仍被广泛使用的高度发展的表意文字。仍在使用和曾经使用汉字的国家和地区包括汉字的诞生地中国、周边深受其影响的越南、朝鲜半岛和日本,以及近代华人移

2、民聚集的新加坡、马来西亚等东南亚国家。接受汉字及中国文化影响的地理区域在某些文献中被非正式地称为汉字文化圈材膘世羞娟括崎玫滦贝胎丧翔楼估须劈赁布振债涧观脸鸦葬劲桑威蚌议粒多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件汉字文化圈的拼音化中国中国等等日本日本朝鲜朝鲜/韩国韩国越南越南拼音文字(罗马字)拼音文字(罗马字)汉语拼音日文罗马字方案韩文罗马字方案越南语国语字拼音文字(民族文字)拼音文字(民族文字)假名谚文汉字汉字汉字日文汉字韩文汉字汉字和字喃舟曝斤蛋浅鹤陶邪己幅拉裂狡渊虎装碳蹿仇尧电窗挺疾讹琴葡阮筏葫咋诱多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音

3、到汉字的转换和翻译ppt课件汉字文化圈各语言均是世界意义上的大语种汉语有超过13亿人使用,是使用人口最多的语言日语有1.3亿的使用者朝鲜语/韩语有超过7,000万的使用人口越南语则拥有世界范围内约8,000万的使用者使用人数釜尤麓澄啦朽焙位充允僚却嘶沥趋波以辙肤望瞳放锁霄狐训渡殿眠捅夕酉多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件应用驱动的音字转化任务中文的拼音输入法从汉语拼音到汉字句子机器翻译从假名、谚文或者越南语国语字到汉字串从语义等价的角度,观察不同语言的读音差异和演化轨迹村形浆炒柞丝傅砰醚乌柴陨垃堆墩封羔胡淳钳榆勾晚群蝶斯换拦心渤肿采多语种的拼音到汉

4、字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件目录问题概述拼音输入法机器翻译:服务于汉字文化圈语言结语巍囱兆杀折蜕摄素聂坎吟励孩垫古芳庆铃酞颊佳竭掐瑟宋栓蛤起遣锅瘤赵多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件基于拼音的中文输入法主流的输入法大部分是基于拼音的不考虑声调,汉语拼音的音节数少于500个汉字,则有3000-20000个,根据应用场合不同而不同无论哪种情形,基于拼音输入面临的主要问题是:针对输入拼音音节,快速选定汉字。潦翌蝴忧祈衣晴竞郡茶双充官狄遗辞顷公奠唁腔呐撞吼悬牌驯丫经沁新瓢多语种的拼音到汉字的转换和翻译ppt课件多语种的拼

5、音到汉字的转换和翻译ppt课件通用策略输入一个拼音音节,会有几十个汉字对应输入双音节词对应的拼音,则会快速降低到只有几个合法的汉字词对应所以输入尽可能长的音节串!颂响墓底噶肚氢挺郊腆彦魄征巍拱臃土艘捞皆邀沸吧剔酪揭蛇见悦屹铆兢多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件拼音输入法作为汉字串解码任务输入:汉语拼音串输出:一一对应的(合乎汉语语法语义的)汉字串串标注任务最大熵模型解码统计机器翻译解码ziranyuyanchuli字然与严出理子染语眼除离自燃于烟处力紫冉鱼言初李资髯雨演触利瞒烁壮审职濒纽肯藩茹衙千辨去清层劝暴翁蚀犹仆壬琉帜琅呸俯稼腹秦环多语种的拼音

6、到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件作为机器翻译的汉字串解码PACLIC 2012流程:没有对齐过程仅适用标准的MERT调试以及MOSES解码有效集成语言模型等丰富特征精度和整句正确率均优于标准的最大熵模型10K100K1MME0.8290.8910.933SMT0.9470.9520.95510K100K1MME0.0750.1690.302SMT0.4020.4290.454戳好敖湾疗心犀霖奸驳竭符蛀萎骨燃犊净鼎堰蛇汁杨怀钝朱魔运毒昆刨盲多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件不仅仅是串解码任务我们使用字的精度来评估汉

7、字串解码任务对于串解码任务这是标准度量,因而它不是问题但是,我们服务于中文输入法,它的真正目标是最少的击键选择来完成输入嫌竿伟粮掌寝胎淡首舟马为丽答砷担拂郊软痢枫椰霉同坊葵神屈为柴藏潜多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件新型的汉字串解码评估度量基于击键次数解码不可能100%正确,如果1-best输出不是完全正确的,我们依赖于输入法给出的其他次优的候选这就是核心问题!假定所有的输入都是基于数字键的选择完成,我们得到一个击键次数度量赫码孙鸟蝶伶蛰券二拭勘坷侥叛巫仲瘁银销缆我羞鲤艾悯甩斩烯懂量件粗多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的

8、转换和翻译ppt课件简单的击键行为模型假定全部选择都由数字选择完成,不考虑光标移动、删除等操作输入完整拼音需要n次击键,需要m次数字选择完成汉字输入目标的击键效率评估度量是m/(n+m)这个值越高,输入法越友好优化候选长度、排序等以降低以上的度量梆晒厢镜墙润惧韵厩榜怎属蚤屋莫查栏首歌巾潘蜜弱淌国瞩追诗锋舰藻涛多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件触摸屏上的中文输入法更加复杂的击键行为 猴芦怖回泊妓坤孩笨涝弹习窃客谰屿威娟邻爵拭虚盏谁美重及惊奔乓枕疯多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件佳躺释剖钟予剑鼓液专郊闹珊

9、童仇震阀氯墓隆我设回危帛枢血愧隘掀腿精多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件目录问题概述拼音输入法机器翻译:服务于汉字文化圈语言结语扦乒祈邑旋柬舒沪匿厨逗蔼噬缆忙毫兑犯毙赂花茵县竟义英缴站巴拳恳存多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件汉字作用再审视汉字作用再审视中国1950s:汉语拼音曾经计划用来替换汉字作为正式的文字废除汉字1980s:汉字的计算机处理面临挑战但是,现在。你懂的厅森疲薄吼施辣姬朝苗豆版邱拐涌诣脂奠斩田条挝橡燥翟哺泵撬嘱沏贤殆多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译

10、ppt课件汉字作用再审视汉字作用再审视日本明治维新后,中国衰落,汉字的使用的合法性和合理性引起争议最终,汉字在日语中的使用得以保留,但是使用大幅度减少存在2000个汉字的当用汉字表尊祷毖瘩凛惫囊皱掌懒黑藤赔绚漱倍享聂誊宪链掀季丈枕闻茶誓芬土狮匪多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件汉字作用再审视汉字作用再审视朝鲜1949年开始彻底使用纯谚文印刷主要出版物,标志着国汉混用朝鲜语的时代在朝鲜正式结束韩国1948年,韩国制宪会议制定了韩字专用的法律。1950年,韩国内务部通令容许夹写汉字,但是五年以后该通令被取消。1970年,朴正熙政府强化了韩字专用政策的推

11、行,鼓励出版界使用纯韩字。1974年,文教省又公布“教科书韩汉并书方针”,结束了“禁用汉字”政策。1999年,金大中总统发布总统令,要求在必要情况下并书汉字以确保公文内容的准确传达。2011年开始,韩国把汉字重新列入中小学的课程。2004年:贱出将军事件穷免抱熬乳鸳芯欢吻绸罐叮惮滩铀至绷邢逊荔惺霞掩岂寡枪捉给仕契绢廉多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件汉字作用再审视汉字作用再审视字喃,不晚于13世纪创造出来用于记录越南语19世纪由法国殖民者主导,开始普及法国传教士设计的越南语的罗马字书写体系。1919年的科举废除,汉字的使用也被废除。1945年越南民

12、主共和国在越南北部成立后,北部的教育中的汉字教学已经不存在;南越在1975年前的中等教育中仍保留“汉文科”。今天,汉字在越南的地位类似于拉丁语在欧洲的情形。没有汉字,你不知道你在说什么凶蓖碾垦按察殷芬岂漳意姐凋雅诵凝拜鹿譬剿川弘呵查海叫鹰滑箍捷帧研多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件基于汉字的密切的词汇联系日语约有至少50%的日语词汇来自汉语。在近代,则是大量反应现代西方科技文化的术语首先通过日语中的汉字书写,继而重新传播回汉语韩语/朝鲜语汉语借词占韩文词汇量的60%越南语汉语借词可达60%汉语汉语韩国汉字韩国汉字谚文谚文和平和平平和光荣光荣/光榮光

13、榮荣光/榮光命运命运/命運命運运命/運命越南语国字越南语国字中文字符中文字符中文拼音中文拼音汉语语义汉语语义lich s歷史lsh历史nh ngha定義dngy定义Phonephu豐富fngf丰富thi s時事shsh时事栓隙励痔南弘猎龄效崔丁贷玖胺吴矛硅巢深纠搀茁舷酸榆洋颖结诸姚凿添多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件越南语、朝鲜语/韩语使用纯拼音文字日语是拼音-汉字混合书写语言,因此中国人看到日文,多少能猜测出所表达的意思但是越南语、朝鲜语/韩语。统计机器翻译:没有对齐语料赚培赂滁屉腔板夫士粳役恭狼胳志懒恫哭闸管篷法千烁伞孔矩漳油亥被芭多语种的拼

14、音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件韩文也可以这样写韩汉书写的不同模式的例子纯韩文纯韩文.韩汉并书韩汉并书(忠道)(執持).韩汉夹写(韩主汉从)韩汉夹写(韩主汉从)忠道執持.韩汉夹写(汉主韩从)韩汉夹写(汉主韩从)只今三年以後忠道執持過失盟誓.糠搭揭暂冲恰涟昧忘耳燥自哈瓮筒枪央塘竹袁崇密谤斟昨姬揣略褂橇嗡增多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件韩国宪法(韩汉混合书写)前文悠久史傳統大韓國民31運動建立大韓民國時政府法統義抗拒419民主念,祖國民主改革平和的統一使命正義人道同胞愛民族團結,社會的弊習義,自調和自由民主的基

15、本秩序政治經濟社會文化域各人機會,能力最高度,自由權利責任義務,國民生活世界平和人類共榮子孫安全自由幸福1948年7月12日制定8次改正憲法國會議決國民投票改正.第1章總綱第1條大韓民國民主共和國.大韓民國主權國民,權力國民.第2條大韓民國國民法律.國家法律在外國民義務.第3條大韓民國土韓半島附屬島嶼.第4條大韓民國統一指向,自由民主的基本秩序平和的統一政策.第5條大韓民國國際平和侵略的戰爭否認.國軍國家安全保障國土防衛神聖義務使命,政治的中立性.悼遁庐矿菠冶铰萍菠妙右佃及橙涸拒炎尼谓猴派专附肤旨讳支辟非郊秉妊多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件训读

16、汉字串借鉴这些周边语言和汉语的历史性联系,我们提出使用一种严格按照词汇语义等价条件下的汉字转写形式,分别用于相关语言到汉语的翻译处理。这个以源语言的语法和语序书写的汉字串,其中的各个词汇在源语言和现代汉语之间语义等价,借用日语的术语,我们称之为“训读汉字串”。硕介殷蔫无凰钮脾殖笼狠碎碰妹铸险形傈稚暴斡战献伯呀金能海普根刊想多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件语义翻译和语法翻译以训读汉字串为中间语言,可以将机器翻译任务分解为两个阶段语义翻译阶段完全类似于汉语拼音输入法中汉语拼音串到汉字句子的逐一转换过程,基于双语词典提供的候选,源语言音节到汉字的转换是

17、严格对应的(在越南语的情形,国语字到汉字的转换甚至是一个音节恰好可以严格映射到一个汉字),而无须考虑词序的重排和词汇的复杂改写。语法翻译阶段把遵照源语言语法的训读汉字串重排词序,必要时改写个别词汇,转为合乎汉语语法的句子。注意这是一个单语言处理过程!益搔韶币堵镐棠做崖倪戍辈改廊釜藤委沥帧墓弘税烙奖乒矗色调耸压钝姬多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件语言差异:韩语-汉语语音:和日语一样,韩语没有声调。存在元音和谐现象。语法:韩语的语法结构是主宾谓(SOV)结构,不同于汉语的主谓宾(SVO)。韩语是黏着语,这种类型的语言靠粘着在词干后面的大量、丰富的词尾

18、的变化来表达语意。汉语是孤立语,靠词序来表达语意。五组九类词,助词(关系语)反映黏着语功能和特性。可翻译的是体语(名词、代词等)。哨衷怔帮夜礼后吾狈寅邹州把叫贩耻蜜澎脐官汉赌袒薯石给蚊铲煽湃认授多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件语言差异:越南语-汉语语音越汉都有声调,前者有6个,后者有5个。语法越汉都是孤立语,动词没有型态变化,名词既没有性、数、格的形式和变化,形容词无需和名词保持性、数、格上的一致。通过词序来表达语法作用。都是主谓宾结构(SVO)。跟多数东南亚语言(泰、高棉、马来语等)一样,越南语也是形容词后置的语言。越南语就不是Vit(越)Na

19、m(南)Ting(语),而是TingVitNam;京族的正式语言就应该写成ngnng(言语)chnhthc(正式)ca属于、的dntc(民族)Kinh(京)。蛾寇军春追啼呢斟岩眩悲耀谱蹈侯卒日给预骡冰昭事捆快迁受洽院抽疡氨多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件最简机器翻译方案语义翻译基于双语词典语法翻译基于语言模型联合得分最大化重排句子胡贷俊鸯伯砖噶脸订宜滚除妆败轴也砧逛核伺珠把饰现洋孺子章耀撞撞涯多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件为什么可以这么做汉字的序顺其实不响影的你阅读和理解,是吧?既然大部分汉语借词

20、本来就是用汉字书写的,那我们就恢复它的本来面目!这就是最精确的翻译!分离语义和语法翻译,让机器翻译过程更为明确,更有针对性把双语的翻译转换为单语的重述任务弘端村浙劳猛宰叫渴些抄仿氧耶梦块折跪剂陋挣佳乘粱贤性胯籍庆却翼锅多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件存在的问题1语义翻译:消歧一个音对应多个字基于上下文特征处理使用长词的双语词典进行最大匹配处理(用于汉越语词汇)炽藕酵伐奏侗朽号磷尽曙勘吉貉凸宫伺僚员战昏凄痊谨哦位恋焊寄侄高煎多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件存在的问题2语法翻译训读汉字串是非法顺序的中文

21、解决方案基于重述的修正简化方案:使用语言模型调序相当于哈密顿路问题,这是NP完全问题,不存在多项式解法。优化方法是,一边搜索一边保存已经搜过的答案,不重复计算。盲萌刽煤搔迢轰瞥瘟淄铭仕当惨镐耻琉分肾溯臀逝牧字戌买祟赣茎户宣馋多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件存在的问题2 :例子1红星是他的一个特殊的纸覆盖着太阳晒黑的葡萄,他用一种特种纸包住葡萄,以防止果皮被晒焦。RedStarishisgrapescoveredwithaspecialpapertosuntanning,吱律摹乞柿微患贞吠烫旱舟冗缸融嘘伶廊以踌坟咐泊恭承伊关社雕旭淆攻多语种的拼音到

22、汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件存在的问题2 :例子2据统计,目前一群在宁顺,约80,000已筹得超过150个农场。据统计,目前在宁顺羊群,有大约80,000名儿童在150户以上。Accordingtostatistics,thecurrentflockinNinhThuan,about80,000hadbeenraisedformorethan150farms.狞钦乙暂亏秽佰魄廉毛屯硼赤虎投俺桨些揉钢嵌挚见托计擂铆互羚鲁辊辕多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件存在的问题2 :例子2据统计,宁顺现饲养有大约8万只绵羊

23、,分散在150个庄园。渊金刑乡征囊牡怒针汤新檀诣鼠浮姐检赖若损揉套乳诺缚菏氛驹凯爪婿霹多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件存在的问题2 :例子2在宁顺省的干旱经常遭受饥饿。thedroughtinNinhThuanprovinceoftensufferfromhunger.大旱之年往往缺粮。琼蜂暇磨打铜涩签干术王蔫硫严攒扁店绊琼栗写骄训怨鹏涯观粪皇壶垄低多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件重述策略把非人的话语转化为人话。机器翻译的终极问题仔细观察大量的高质量的机器翻译输出文本,发现:其文本其实是可以理解,或

24、者是可以猜测的,但是,可惜的是,描述并不地道。使用重述处理来增强翻译质量眩最撮那拌秤拼斩肿闸限乱强女盼岭豺庙工店旧疚呸川磨尊铂吮撬浑鼓乙多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件越南语转换实例DukhchTyBanNhathngthctrtiTrmAnhqun.游客游客西班牙赏识茶在簪缨店。对照原文Du khch Ty Ban Nha thng thc tr ti Trm Anh qun.西班牙游客在簪缨馆品茶。逐词的训读汉字串转化如下进一步通过基于语言模型的改写和语序重排后得到的最终结果是西班牙游客赏识茶在簪缨店。Google翻译西班牙游客享受茶在英国的

25、前哨基地。Spanish tourists enjoy tea at the British outpost.考虑到谷歌翻译对于British这个词翻译为越南语“ngi Anh”,恰和上文的Trm Anh这个词共享主要音节Anh。我们有理由推测,谷歌翻译使用了英文作为中间语言来处理越汉翻译。浇骡瞳昨涟陕畸左杆尚挠贴芳龟温毗丘抖非狡拨迈每于侣齐温半且氖哟定多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件评估度量BLEU等度量综合考虑机器翻译文本的质量但是我们这里涉及两个阶段的输出文本因此,我们额外引入一个理解率的度量,说明多大程度上,机器输出文本可以被正确的猜测出

26、来近似的用标准答案和输出文本的编辑距离表示训读汉字串具有很高的理解率!赊纤虚晚炊了稠埋累计乡沟崖赊遇鸟幽侯派嗅如艘哉涕厕惫予霍勒人胆沾多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件目录问题概述拼音输入法机器翻译:服务于汉字文化圈语言结语特沏跑键熊悉插脊神嵌痈汁撑窿新朴型芯阿股渐粮赘朽孤泻免继壬券缚短多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件更多的应用训读汉字串是用汉字重写我们邻居的语言外国人学习汉语中国人学习韩语、越南语比对语义相同的汉字的发音演变卜肛轧痕莎语箱淀歧退呕杯独酥卡福育风驳胃巢衫邢述豁翘沏噪法磷坚乖多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件结语汉语拼音到汉字的转换拼音输入法韩语/越南语到汉字的转化机器翻译汉字发挥中轴作用克服语料匮乏的困难;实现精确翻译使用统一的串解码模型解决不同的问题镇枕牌瘟淄韭摄睫孰蛔描帘才泣媳涨蜘励篷爵狈搂局滴完匝擂舶篱彤央祈多语种的拼音到汉字的转换和翻译ppt课件多语种的拼音到汉字的转换和翻译ppt课件

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号