广义虚词知识库与汉语理解研究

上传人:宝路 文档编号:47672904 上传时间:2018-07-04 格式:PPT 页数:26 大小:447.37KB
返回 下载 相关 举报
广义虚词知识库与汉语理解研究_第1页
第1页 / 共26页
广义虚词知识库与汉语理解研究_第2页
第2页 / 共26页
广义虚词知识库与汉语理解研究_第3页
第3页 / 共26页
广义虚词知识库与汉语理解研究_第4页
第4页 / 共26页
广义虚词知识库与汉语理解研究_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《广义虚词知识库与汉语理解研究》由会员分享,可在线阅读,更多相关《广义虚词知识库与汉语理解研究(26页珍藏版)》请在金锄头文库上搜索。

1、广义虚词知识库 与 汉语理解研究 俞士汶 朱学锋 刘云 北京大学计算语言学研究所Email: 2007年2月1日, 云南西双版纳 第十一届全国少数民族语言文字信息处理学术研讨会特邀报告 973课题“文本内容理解的数据基础(2004CB318102)”北京大学计算语言学研究所http:/主要内容虚词对语言理解的影响 汉语中的虚词汉语自动分析中的虚词广义虚词知识库的建设结语与致谢 北京大学计算语言学研究所http:/主要内容虚词对语言理解的影响 汉语中的虚词汉语自动分析中的虚词广义虚词知识库的建设结语与致谢 北京大学计算语言学研究所http:/关于 “语言”英国新科学家周刊 2005年4月9日 的

2、文章 生命进化的十大奇迹:脑(第3项)和语言(第4项)脑常常被视作进化过程中的最高成就,因为它赋予了人类 一 些高级特征,例如 语言、智慧、意识。语言是进化的终 极 发明。在令人类区别于动物的特征中,语言处于核心地位 。 语言也许称得上是人类的决定性特征之一。我们的祖先如 何 实现了语言从无到有的飞跃,这也许是科学史 上最大的谜。语言是生物进化的最后一笔。这 是因为语言令那些掌握了它的动物超越了纯生 物的范畴。语言系统是动物进化到人的两大标志之一。 人类语言系统的特征:丰富的词汇、复杂的结构、虚词的作用北京大学计算语言学研究所http:/文本内容理解与其他数字内容理解的关系婴儿学习语言离不开对

3、母亲(包括家人)的心率、 体温、声音、形象、动作的感知。人阅读文本时,语音 、影像、经验对文本理解有着不可分离的巨大作用。文 本中的插图对文本理解也有辅助作用。甚至一张照片所 讲的故事胜过千言万语。文本可以超越时空的局限准确地传达信息(口说无 凭,以书为证),记录逻辑思维产生的创造性成果。戏剧、影视、歌曲等艺术形式的传情达意也离不开 语言(戏文、歌词、对白)、文字的帮助。多数乐曲的 标题、绘画的题词对这些艺术的理解有相当明显的启示 作用。北京大学计算语言学研究所http:/文本内容理解是其他形式的数字内容理解的子课题。文本内容理解和其他数字形式的信息理解需要相互融合。 文本内容理解文本内容理解

4、 的数据基础的数据基础图像序列内容理解口语化语音信息 的分析与识别 多源感知信息 的融合 多媒体信息检索大规模文本 内容计算凤凰卫视中文台(2005729)介绍了美国的一幅漫画 一美元纸币上的华盛顿头像扭头瞧着纸币左半边的一行字:“Made in China”,一脸无可奈何的表情。在其他信息传播形式中,言简意赅的文字往往能起到画龙点睛的作用北京大学计算语言学研究所http:/一个实例 关于自动升降晾衣架的对话 妻子:妻子:“嘿,过了嘿,过了一年才一年才坏。坏。” 丈夫:丈夫:“什么呀,什么呀,才一年才一年就坏了。就坏了。” 丈夫理解了妻子的意思吗?背景知识:保修期 知识激活机制? 虚词词义:才

5、(数量词前后,意义不同)虚词对语义的影响北京大学计算语言学研究所http:/主要内容虚词对语言理解的影响 汉语中的虚词汉语自动分析中的虚词广义虚词知识库的建设结语与致谢 北京大学计算语言学研究所http:/n虚词不是内容词,而是功能词。n虚词不能充任汉语主要句法结构中的句法成分: 主语、谓语、述语、宾语、补语,定语、状语、 中心语。n虚词对于语句、会话、篇章的完整结构(也是句 法功能)和意义的表达却是不可缺少的。 汉语 是典型的分析语,虚词在汉语中的语法作用不同 于屈折语的英语、俄语和黏着语的日语。虚词研 究一直是汉语语法研究的重要组成部分。n虚词基本上是封闭的,词典中的虚词数量有限。2. 汉

6、语中的虚词(1)北京大学计算语言学研究所http:/n新的虚词产生的速度远远比不上新的实词。n尽管词典中虚词的数量有限(静态出现),但在 真实文本中单个虚词的平均频度(动态出现)远 远高于单个实词的平均频度。而且虚词是通用的 高频词。n虚词的个性比实词显著。助词是最典型的虚词, 数量很少。同属助词的“的”、“得”、“着”、“了” 、“过”、“所”几乎没有什么共同的语法属性。 面向语言信息处理,有必要加大对虚词研究的 力度,有必要建立“广义虚词知识库”。 2. 汉语中的虚词(2)北京大学计算语言学研究所http:/主要内容虚词对语言理解的影响 汉语中的虚词汉语自动分析中的虚词广义虚词知识库的建设

7、结语与致谢 北京大学计算语言学研究所http:/虚词的辨析 从文本中识别虚词分析线索神经紧张得到了崩溃的程度。 神经紧张得到了缓解。 汉语自动分析中的虚词(1)北京大学计算语言学研究所http:/虚词的句法语义功能及其表述 现代汉语语法信息词典依托词组本位语法体系 现代汉语语义词典采用“广义配价模式” “的”接在动词后面构成的“的”字结构,体词性的,功 能: (1)可以作定语修饰名词,即形成“动词+的+名词” 结构; (2)代替名词,即可以出现在主宾语的位置上。 自指意义,只能出现于(1):“驾驶的技术”,“走的姿 势” 转指意义,可以出现于(2):“走的出发了”,“有吃的 ”。 还要进一步给

8、出“动词+的”表示自指或转指的条件。 配价信息:“走”主体应该是人,“吃”的客体是食物。 “技术”、“姿势”分别是“驾驶”、“走”这些动作或 行为本身的 属性,只是自指。 虚词(“的”)的句法语义信息不是能够孤立描述的,同其前后搭配的词语是密切关联的。 汉语自动分析中的虚词(2)北京大学计算语言学研究所http:/虚词的隐现与冗余n分配学生一个任务。n接受老师一个任务。 等价于n给学生分配一个任务。n从老师(那里)接受一个任务。 “的”的作用n *分配学生的一个任务。n 接受老师的一个任务。 汉语自动分析中的虚词(3)北京大学计算语言学研究所http:/主要内容虚词对语言理解的影响 汉语中的虚

9、词汉语自动分析中的虚词广义虚词知识库的建设结语与致谢 北京大学计算语言学研究所http:/关于一般的自然语言处理系统语言知识库应用程序-语言知识库是自然语言处理系统不可或缺的组成部分,语言知识库的 规模和质量在很大程度上决定了自然语言处理系统的成败。面向自然 语言处理的语言知识库对语言本体研究和语言教学也有重要意义。自然语言处理系统NLP是世界性难题北京大学计算语言学研究所http:/语言知识库与应用系统在语言知识库搭建的平台上可以上演 威武雄壮生动活泼的应用系统的剧目 语言知识库1语言知识库2语言知识库3语言知识库4平台 / API应用程序1应用程序2北京大学计算语言学研究所http:/吕叔

10、湘:“有了形态变化,语法分析就比较容易进行。没有严格的形态变化,在语法分析上就比 较容易引起问题。”汉语缺乏形态变化,缺乏形式标记,自动分析 也就缺少可以把握的线索。汉语自动分析如果不比 其他的语言更困难,至少不会比其他的语言更容易 。汉语信息处理尤其需要大规模 的高质量的语言知识库的支持。 书面汉语特点及其对信息处理的影响北京大学计算语言学研究所http:/北大开发的现代汉语语言知识库(1)现代汉语语法信息词典(8万词语) (2)大规模现代汉语基本标注语料库(6000多万汉字) (3)面向汉英机器翻译的现代汉语语义词典(6万) (4)面向跨语言文本处理的中文概念词典 (10万概念) (5)句

11、子对齐的双语语料库 (80万句对) (6)多个专业领域的术语库 (35万术语) (7)现代汉语短语结构规则库(600条规则) (8)用于语言知识库开发的各种工具软件 规模大、种类多、质量上乘,已产生广泛影响,仍期待 发展与合作虚词知识库还是一个空缺北京大学计算语言学研究所http:/“广义虚词”之所指n现代汉语语法信息词典中的全部虚词n副词n方位词:“上”、“下”、“中”、“里” n量词:“个” n代词n部分动词形式动词 助动词 补语动词 趋向动词n形式名词 广义虚词知识库(1)北京大学计算语言学研究所http:/“广义虚词知识库”的主要内容n确认每一个广义虚词的各个功能语义项 ID副词“都”

12、有3个ID: “总括全部”、“甚至”、“已 经”n对每一个ID ,建立判别条件 “都”之 “总括全部” :表示复数的主语,后面的动 词常是肯定式“甚至” :后面的动词常是否定式“已经” :句末常有语气词“了”n虚词隐现、冗余的条件描述n错误例句分析广义虚词知识库(2)北京大学计算语言学研究所http:/“广义虚词知识库”的构成(1)一部富含句法、语义信息的虚词机器词典(静态信息); (2)标注了每个虚词的确定 ID 及确定属性信息的语料库(训练语料); (3)基于 (1)和 (2),抽象出来的(真实语料中)一套虚词ID以及确定属 性的判别规则广义虚词知识库(3)北京大学计算语言学研究所http

13、:/“广义虚词知识库”的发展轨迹 2002年 俞士汶提出“广义虚词知识库”的建设任务俞士汶、朱学锋、刘云现代汉语广义虚词知识库的建设第二届肯特岗汉语语言学圆桌会议(新加坡),2002年11月27日又刊载于汉语语言与计算学报,2003年3月,第13卷1期,89-98 2003年 俞士汶、朱学锋、刘云虚词与汉语理解研究“第四届词汇语义学网络研讨会” ,2003年6月23日至7月25日,香港 城市大学主办 2004年-2005年 863 中文信息处理应用基础研究之子课题 “广义虚词知识库的建设”刘云(2002年7月-2004年9月,博士后,华中师范大学) 主持,重点研究 表征复句关系之虚词彭爽 (2

14、004年7月-2006年3月,博士后,吉林师范大学)重点研究 介词 2004年-2009年 973 课题 “文本内容理解的数据基础(2004CB318102)之子任务昝红英 (郑州大学)重点研究 方位词、副词等并负责集成广义虚词知识库(4)北京大学计算语言学研究所http:/主要内容虚词对语言理解的影响 汉语中的虚词汉语自动分析中的虚词广义虚词知识库的建设结语与致谢 北京大学计算语言学研究所http:/结语与致谢汉语信息处理研究与少数民族语言信息处理研究相互借 鉴,相互支持。少数民族专家在语言信息处理研究中有独特的优势。感谢第十一届全国少数民族语言文字信息处理学术研讨会的邀请,讲者获此殊荣,能在此和大家分享心得和成果。感谢大会主席和与会听众。恳请批评指正。欢迎访问北大计算语言学研究所欢迎访问北大软件学院语言信息工程系 www.ChineseNLP.com/ (Blog 燕园时语 )

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号