中文信息处理与汉语研究现状和发展

上传人:壹****1 文档编号:567422569 上传时间:2024-07-20 格式:PPT 页数:24 大小:134KB
返回 下载 相关 举报
中文信息处理与汉语研究现状和发展_第1页
第1页 / 共24页
中文信息处理与汉语研究现状和发展_第2页
第2页 / 共24页
中文信息处理与汉语研究现状和发展_第3页
第3页 / 共24页
中文信息处理与汉语研究现状和发展_第4页
第4页 / 共24页
中文信息处理与汉语研究现状和发展_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《中文信息处理与汉语研究现状和发展》由会员分享,可在线阅读,更多相关《中文信息处理与汉语研究现状和发展(24页珍藏版)》请在金锄头文库上搜索。

1、中文信息处理与汉语研究现状和发展詹卫东北京大学中文系北京大学汉语语言学研究中心北京,http:/ 2003.10.5 - 10.6硬刑杀奏坎补扩卷纸葵陛膨睹澎尖首垣早箩佐蚀浮寝响兽鼓芝蟹声己缺酷中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展1提纲1)中文信息处理研究的格局2)中文信息处理的现状和发展趋势3)语言知识资源的建设4)面向中文信息处理的汉语研究奈窘囤胶妓硷劣盒奇颠录锐秽匆句纪醒毛晃搔键残妄蝎熟腆卞沟倚跋捻淤中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展2一中文信息处理研究的格局信息的两个层次:符号层中文/汉语/汉字内容层符号所承载的意义中文信息处理

2、的两个层次:字符处理(输入、存储、输出等)内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译等等)(信号vs.信息)碗礼舶筏亩矿蛮裤亲席蔚懂仅皋诀搂增抑洗舀酝与伦蹦及铆闹杂晒寞钟守中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展3符号层的信息处理拼音文字:小字符集比较容易非拼音文字:大字符集难度很大汉字是一个大字符集说文解字(东汉):9353字玉篇(南朝)收录16,917字广韵(宋代)收字26,194字字汇(明朝)收录33,197字康熙字典(清朝)收录47,043字汉语大字典(1992年)5.6万中华字海(1994年) 8.6万拉丁字母只有26个符号斯拉夫字母只有33

3、个符号阿尔明尼亚字母只有38个符号泰米尔字母只有36个符号缅甸字母只有52个符号泰文字母只有44个符号老挝字母只有27个符号藏文字母只有35个符号韩文字母只有24个符号日文假名只有48个符号尉衷踌张蹄夯铰髓翌敬晾屏熬找算绰屑碑认幌供理价富歧滑诽度污砰忧刷中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展4符号层的信息处理汉字输入汉字输入自动输入自动输入键盘输入键盘输入字形识别字形识别声音识别声音识别手写体识别手写体识别印刷体识别印刷体识别在线手写在线手写脱机手写脱机手写整字键盘整字键盘通用键盘通用键盘主辅式主辅式感应式感应式形码形码音码音码形音结合码形音结合码123456789酋

4、陇加得膨至真迸摧助俐妨帝俊忠阮颗谷蛋郑萨强庙芒钳识骆蓉态葬董馈中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展5内容层的信息处理形态丰富的语言(inflectinglanguage):处理难形态不丰富的语言(analyticlanguage):处理更难汉语英语老师都来了Allprofessorscamehere.张老师都来了EvenProfessorZhangcamehere.编辑工作很难Editingisverydifficult.如何当好编辑Howtobecomeagoodeditor巩赵馁国索轿礼铱得漓优具陷蹋夯彝呢猜淫凝遭埔楷否鹤烹藤凋位悟缘唐中文信息处理与汉语研究现状

5、和发展中文信息处理与汉语研究现状和发展6内容层的信息处理原文原文输入译前编辑词法分析句法分析语义分析语境分析内部表示转换译词选择译后编辑译文输出词形变化句子生成译文123456789101112机器翻译全过程机器翻译全过程需要语言知识!揪晴荚钞玫衡皇斯县室明家愚窘巢干戈寥不奔贬禄懂绦脑唁椰嗡抓肄冯奔中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展7内容层处理对符号层处理的反作用拼音串(无声调)xuexidiannaojishu候选字串雪 系 点 脑 机 树共有149841151676895.8亿种可能性学 洗 电 闹 给 述学 西 颠 挠 记 书候选词串学习 电脑 级数共有21

6、714种可能性血洗 电脑 奇数血洗 电脑 基数正确文字串学习电脑技术纂眯肮感坡渺沥剧振显拘屁包窿滥锤刹痪纱霉娇缎牲胞双炭淄瘴呵盲汛巢中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展8内容层处理对符号层处理的反作用拼音串(无声调)xuexidiannaojishu候选字串雪 系 点 脑 机 树共有149841151676895.8亿种可能性学 洗 电 闹 给 述学 西 颠 挠 记 书候选词串学习 电脑 级数共有21714种可能性血洗 电脑 奇数血洗 电脑 基数正确文字串学习电脑技术狗逗庭虫居福溅陇痔冀熟弓鬼狈烫拉果号墟篙褒痔荐档炙裁噪攀祝傍膀滨中文信息处理与汉语研究现状和发展中文

7、信息处理与汉语研究现状和发展9内容层处理对符号层处理的反作用拼音串(无声调)xuexidiannaojishu候选字串雪 系 点 脑 机 树共有149841151676895.8亿种可能性学 洗 电 闹 给 述学 西 颠 挠 记 书候选词串学习 电脑 级数共有21714种可能性血洗 电脑 奇数血洗 电脑 基数正确文字串学习电脑技术揣夏惜苟惯秽殃蚜暑桓骏故溜块碳莎支径磋留革捶尿却膏罕顷忙崖怔颂您中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展10内容层处理对符号层处理的反作用拼音串(无声调)xuexidiannaojishu候选字串雪 系 点 脑 机 树共有14984115167

8、6895.8亿种可能性学 洗 电 闹 给 述学 西 颠 挠 记 书候选词串学习 电脑 级数共有21714种可能性血洗 电脑 奇数血洗 电脑 基数正确文字串学习电脑技术爆涕临棍科闭正罩贡皮彼潜萍跨形哥及概殿腺晾喜往雕聊绦油灾旁腑肝歹中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展11二中文信息处理的现状和发展趋势现状符号层的处理成果已经得到广泛应用;中文输入/字库/字处理软件/排版/内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索酱粪炬猫牺排邓秆愤僻福果醚拉靶液笺窒温苹壤惶煤羞酗糠机翱椎佛铰补中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展12系统演示北京大学现代汉语分词/词性标注/句法分析系统(孙斌、刘群、常宝宝、詹卫东等)http:/

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号