北京大学计算语言学研究所http∶╱╱iclpkueducn

上传人:飞*** 文档编号:52209432 上传时间:2018-08-19 格式:PPT 页数:102 大小:2.88MB
返回 下载 相关 举报
北京大学计算语言学研究所http∶╱╱iclpkueducn_第1页
第1页 / 共102页
北京大学计算语言学研究所http∶╱╱iclpkueducn_第2页
第2页 / 共102页
北京大学计算语言学研究所http∶╱╱iclpkueducn_第3页
第3页 / 共102页
北京大学计算语言学研究所http∶╱╱iclpkueducn_第4页
第4页 / 共102页
北京大学计算语言学研究所http∶╱╱iclpkueducn_第5页
第5页 / 共102页
点击查看更多>>
资源描述

《北京大学计算语言学研究所http∶╱╱iclpkueducn》由会员分享,可在线阅读,更多相关《北京大学计算语言学研究所http∶╱╱iclpkueducn(102页珍藏版)》请在金锄头文库上搜索。

1、中文信息处理介绍 Introduction to Chinese Information Processing YU Shiwen ZHU XuefengInstitute of Computational Linguistics, School of electronics engineering and computer science, Peking University ( ICL/PKU ) April, 23, 2007, Moscow 北京大学计算语言学研究所http:/主要内容中文信息处理概要 汉语信息处理的主攻方向 综合型语言知识库介绍研究中的课题与 CIP 相关的信息结语与

2、致谢 北京大学计算语言学研究所http:/*主要内容中文信息处理概要 汉语信息处理的主攻方向 综合型语言知识库介绍研究中的课题与 CIP 相关的信息结语与致谢 北京大学计算语言学研究所http:/*相关的术语及其所指 Chinese Information Processing(CIP) 中文信息处 理Chinese character Information Processing汉字信息处 理 CIP Chinese character (IT) = Chinese ideograph (Sinology)Chinese language Information Processing 汉语信

3、息处 理 Natural Language Processing(NLP) 自然语言处 理 Language Information Processing 语言信息处 理 (1) NLP/ CIP (2) Chinese-centered Multi-lingual Information Processing以汉语为核心的多语言信息处 理北京大学计算语言学研究所http:/*相关的术语及其所指 Natural Language Understanding 自然语言理 解 自然语言处理的最高境界 Computational Linguistics 计算语言 学ABBYY Headquarter

4、s V. Selegey: “both linguistic and computational aspects of Chinese modeling”ICL/PKU 以文科学科命名,设在理科的信息科学 技术学院,正好显著地反映了文理交叉的特点。 北京大学计算语言学研究所http:/*“汉语信息处理” 在研究什么 ?实用系统:(1)人工系统的自然语言界面(问答系统)(2)机器翻译与机器辅助翻译(3)信息检索、信息提取与搜索引擎(4)文本管理(文本分类与聚类、文献摘要与述评、OCR后处理)(5)词典计算机辅助编纂 (6)领域知识工程(术语提取、知识元数据库、百科全书编撰)(7)语音接口技术(语

5、音识别的后处理、语音合成的预处理)(8)自然语言处理系统评测技术(9)面向语言本体研究与语言教学的应用 汉语信息处理既立足于汉字信息处理, 又区别于汉字信息处理。 处理对象不再是单个的汉字或字符串, 而是语言学的单位:词、短语、句子乃至篇章、文档集合。 两者之间也有联系:拼音汉字转换、简繁转换、OCR 后处理 、文献检索、语音识别与合成等等。北京大学计算语言学研究所http:/*关于“汉语信息处理”的基本 认识自然语言处理是数值型计算机在非数值领域最早的 应用(MT)。但在“自然语言理解” 的层次上,至 今没有突破: (1)依据对人类语言机制的认识 (2)语言既是对象,又是工具 (3)依据对当

6、代计算机能力的认识 (4)依据NLP技术发展的历史经验 汉语理解研究和其他语言一样困难。 需要交流。希望与俄国同行交流。 在技术层面上,汉语信息处理又有 特殊的课题。北京大学计算语言学研究所http:/*主要内容中文信息处理概要 汉语信息处理的主攻方向 综合型语言知识库介绍研究中的课题与 CIP 相关的信息结语与致谢 北京大学计算语言学研究所http:/实例之一 关于自动升降晾衣架的对话妻子:妻子:“嘿,过了一年才坏。嘿,过了一年才坏。” Wife: Wife: 丈夫:丈夫:“什么呀,才一年就坏了。什么呀,才一年就坏了。” Husband: : 丈夫理解了妻子的意思吗?虚词词义:才(数量词前后

7、,意义不同) 背景知识:保修期 知识激活机制? 自然语言(汉语)理解的困难北京大学计算语言学研究所http:/实例之二 关于“沙漠化”的文章“几年前由于种植籽瓜有利可图,使大批的种植者就到过 渡 带来开垦,。在这样的绿洲和沙漠过渡带开垦,极易 造 成风蚀。”2001年9月 号 就/ 到/ 就到/ 到/ 到过/ 过/ 过渡/ 带/ 来/ 带来/ 未登录词的识别 知识背景 认知机制*自然语言(汉语)理解的困难北京大学计算语言学研究所http:/汉语信息处理的主攻方向自然语言理解研究特别困难,目前难以突破。 退而求其次:自然语言处理(汉语信息处理)。 计算机处理自然语言的第一个障碍是歧义问题。 人能

8、够利用语言知识、语境信息、 背景知识消解歧义。 计算机进行机械式的分析, 面临的困难要大得多。 以下介绍信息处理所遇到的 汉语歧义的类型 和 求解之道。北京大学计算语言学研究所http:/词语切分问题: 白天鹅 可能的切分:白天鹅/-白/ 天鹅/-白天/ 鹅/-白/ 天/ 鹅/ 计算机程序可以按某种算法实现这种切分,给出一种或多种结果。对否? 白天鹅飞过来了白/ 天鹅/ 飞/ 过来/ 了 白天鹅可以看家白天/ 鹅/ 可以/ 看/ 家/ 白天鹅在湖里游泳白/ 天鹅/ ?白天/ 鹅/ ?同形词辨析:只量词 q zhi1 ?副词 d zhi3? 这只会测水温的鸭子这/ 只/ 会/ 测/ 水温/ 的/

9、 鸭子/ (切分无歧义) 这/r 只/q 会/v 测/v 水温/n 的/u 鸭子/n , 挺有用的 这/r 只/d 会/v 测/v 水温/n 的/u 鸭子/n ,没什么用汉语信息处理主攻方向歧义消解北京大学计算语言学研究所http:/读音相同的“连”也有不同的词性(意义): 一个连有三个排“连”是名词 n我们兄弟心连心“连”是动词 v苹果可以连皮吃“连”是介词 p 词义辨析:讲真话 / 讲卫生 短语结构的歧义: m + q + n + “的” + n 三个大学的老师 三/m 个/q 大学/n 的/u 老师/n 三/m 个/q 大学/n 的/u 老师/n 三/m 个/q 大学/n 的/u 老师/

10、n 三所大学的老师 三/m 所/q 大学/n 的/u 老师/n 三位大学的老师 三/m 位/q 大学/n 的/u 老师/n 汉语信息处理主攻方向歧义消解北京大学计算语言学研究所http:/句子结构的歧义例1 会员 选举 他 当 主席 例2 学生 认为 他 是 校长 n v r v n (切分、标注无歧义)句法结构(树)不同北京大学计算语言学研究所http:/汉语语义分析(切分、标注、句法分析都无歧义)熊猫/n 吃/v 竹笋/n 学生/n 吃/v 食堂/n 民工/n 吃/v 大碗/n老师/n 写/v 毛笔/n 汉语语义指向分析写/v 好/a 了/u (文章)写/v 累/a 了/u (老师)写/v

11、 秃/a 了/u (毛笔) 汉语语境分析小张/n 打针/v 去/v 了/u (护士?病人?) 语义歧义以及依赖语境的歧义消解北京大学计算语言学研究所http:/其他:长句与句号、逗号 中文中常有长句子,一逗到底。例:“新一届测绘学名词审定委员会的主要特点是年青化,吸收了一些工作在教学、科研前沿的青年专家学者,充分发挥他们接触新知识多,对名词工作热情高、活力大的特长,同中老年专家共同做好新一届委员会的名词审定工作。” 形式上的一句话包含100多个汉字。除第一个分句外,后面的分句都没有主语。 北京大学计算语言学研究所http:/1. 你得藏在一个你看得见他,可 是他看不见你的地方。(逗号断开了结构

12、 )2. 车臣武装分子和世界其他地区 的恐怖分子是一丘之貉,应该合 力打击他们。 (分句的主语省略,“他们”又指 谁?)其他:长句与句号、逗号北京大学计算语言学研究所http:/小明要求他爸爸给他弟弟买一件 他喜欢的衣服,他同意了。 (4 个 “他” ,各指谁?)重庆队得88分,客场负于台湾队 2分。 (CBA, 台湾队和重庆队各得多少分?比赛 地点?) 其他:指代与省略北京大学计算语言学研究所http:/我在家里。(be)我在家里看书。(in)我在看书。 (-ing)你在干什么?看书。你喜欢干什么?看书 。如果我是你,我就去了。如果我有时间,我就去。 其他:时态、语态、语气北京大学计算语言学

13、研究所http:/汉语信息处理还有其他障碍隐喻幽默夸张双关影射 2006年11月 “中国中文信息学会二十五周年学术会议” 俞士汶报告: “文学语言与自然语言理解研究”北京大学计算语言学研究所http:/*主要内容中文信息处理概要 汉语信息处理的主攻方向 综合型语言知识库介绍研究中的课题与 CIP 相关的信息结语与致谢 北京大学计算语言学研究所http:/关于一般的自然语言处理系统语言知识库应用程序-语言知识库是自然语言处理系统不可或缺的组成部分,语言知识库的 规模和质量在很大程度上决定了自然语言处理系统的成败。面向自然 语言处理的语言知识库对语言本体研究和语言教学也有重要意义。自然语言处理系统NLP是世界性难题北京大学计算语言学研究所http:/语言单位不清晰:语素、词、短语、句子词缺乏形态变化:词类多功能与词的兼类虚词: 词形与实词无区别、隐现不定 句子与句法结构:嵌套不需要附加成分主谓结构作谓语不完整,缺省主语 时态、语态和语气的表现缺乏形式标记形式和意义之间的对应关系复杂(吃香蕉、吃筷子、吃食堂)*书面汉语特点及其对信息处理的影响北京大学计算语言学研究所http:/吕叔湘:“有了形态变化,语法分析就比较容 易进行。没有严

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号