计算语言学讲义01)概论

上传人:w****i 文档编号:104411255 上传时间:2019-10-09 格式:PDF 页数:50 大小:419.18KB
返回 下载 相关 举报
计算语言学讲义01)概论_第1页
第1页 / 共50页
计算语言学讲义01)概论_第2页
第2页 / 共50页
计算语言学讲义01)概论_第3页
第3页 / 共50页
计算语言学讲义01)概论_第4页
第4页 / 共50页
计算语言学讲义01)概论_第5页
第5页 / 共50页
点击查看更多>>
资源描述

《计算语言学讲义01)概论》由会员分享,可在线阅读,更多相关《计算语言学讲义01)概论(50页珍藏版)》请在金锄头文库上搜索。

1、计算语言学 第1讲 概论 刘群 中国科学院计算技术研究所 liuqun 中国科学院研究生院20072008学年第二学期课程讲义 计算语言学讲义计算语言学讲义(01)概论概论 2 内容提要 计算语言学所要解决的问题 计算语言学的定义和特点 课程安排 计算语言学讲义计算语言学讲义(01)概论概论 3 问题驱动的学习 (1) 要了解一门学科,首先要知道这门学科所要 解决的问题。只有了解了一门学科所要解决的问 题,才能真正理解一门学科的内在逻辑,才能不 仅知其然,而且知其所以然。 在学习一门学科之前,不妨抛开这门学科的 所有知识,直接面对这门学科所面对的最基本的 问题,想一想如果要你来解决这个问题,你

2、会用 什么办法。然后在学习的过程中,不断地用你学 到的知识来印证你所要解决的问题,才能深刻地 理解你所学到的知识,真正做到融会贯通。 计算语言学讲义计算语言学讲义(01)概论概论 4 以色列的以色列的“巴比通天塔巴比通天塔”纪念币纪念币(1) “圣经故事”系列是以色列纪念币发行中的延续性项目之一。今年发行 的是第七套,它选取的题材为招致上帝愤怒的“巴比通天塔”。 旧约创世纪第11章讲述了“通天塔”的故事。很久很久以前,天下 的人都居住在一个叫做古巴比伦的地方,那时候人们都使用同一种语 言。后来,古巴比伦人计划修建一座塔,塔顶要高耸入云,直达天庭, 以显示人们的团结和力量。塔越建越高,惊动了天庭

3、的耶和华。他想, 现在天下的人都是一个民族,都说一种语言,他们团结一致,什么奇迹 都可以创造,那神还怎么去统治人类?于是上帝便决定要惩罚惩罚人 类。他施魔法变乱了人们的口音,使他们无法沟通,高塔因此无法继续 建造下去。最后,上帝还把人类驱散到地球的各个角落。 纪念币的正面图案由Moshe Pereg设计。只见一座高塔越过山、穿过 云,直达天庭,它是由这个圣经故事的文字艺术地组合而成的。然而, 每一个字又似乎是漂浮在空中,影射了缺乏沟通的语言。 “巴比塔”故事的中心是文字,因此纪念币的背面图案也主要由文字组 成。它们呈环层型分布,给人一个从塔的上方向下观望的印象。 摘自中国金币网( 计算语言学讲

4、义计算语言学讲义(01)概论概论 5 以色列的以色列的“巴比通天塔巴比通天塔”纪念币纪念币(2) 计算语言学讲义计算语言学讲义(01)概论概论 6 问题之一:自动翻译(1) 自动翻译问题 人类最古老的问题之一:圣经上巴比伦塔的传 说 计算机发明以来,几乎是人类首先想到的计算机的 应用之一 困难比人们想像的大得多,至今没有找到理想的解 决办法 是推动计算语言学研究的永恒动力 是计算语言学的终极目标 自动翻译研究,几乎触及到计算语言学研究的所有 方方面面 计算语言学讲义计算语言学讲义(01)概论概论 7 问题之一:自动翻译(2) 一个经典的例子(早期的英俄翻译系统): 源文:The spirit

5、is willing , but the flesh is weak. 正确的译文:心有余而力不足 机器的译文:酒是好的,但肉是馊的 又一个经典的例子(一个笑话) 源文:How are you? 正确的译文:你好吗? 逐字翻译的译文:怎么是你? 源文:How old are you? 正确的译文:你多大了? 逐字翻译的译文:怎么老是你? 计算语言学讲义计算语言学讲义(01)概论概论 8 问题之一:自动翻译(3) 演示 Light英汉机器翻译系统 TransEasy汉英机器翻译系统 目前的水平: Babelfish (点击进入) Google语言工具 (点击进入) WordLingo (点击进入

6、) 中科院计算所机器翻译在线演示(点击进入) 华建翻译中心 (点击进入) 计算语言学讲义计算语言学讲义(01)概论概论 9 问题之二:自动问答 图灵测试 用于判断“机器是否具有智能” 一个封闭的小屋 屋外有一个人 屋内有一个人或者一台计算机 屋外的人并不知道屋内的是人还是计算机 屋外的人向屋内的人或者计算机提出各种问题 屋外的人根据回答来判断屋内是人还是计算机 如果判断不出来,那么可以认为计算机具有了智能 计算语言学讲义计算语言学讲义(01)概论概论 10 User: Men are all alike. Theyre always bugging us about something or

7、other. Well, my boyfriend made me come here. He says Im depressed much of time. Its true, I am unhappy. I need some help; that much seems certain. Perhaps I could learn to get along with my mother. My mother takes care of me. My father. You are like my father in some ways. ELIZA: In what way? Can yo

8、u think of a specific example? Your boyfriend made you come here. I am sorry to hear you are depressed. Do you think coming here will help you not be unhappy? What would it mean to you if you got some help? Tell me more about your family. Who else in your family takes care of you? Your father. What

9、resemblance do you see? 问题之二:自动问答(例子) 计算语言学讲义计算语言学讲义(01)概论概论 11 问题之二:自动问答(演示) 演示 机器人心理医生Frank(Eliza的变体) Alice 获2000 Loebner Prize 基于AIML,开放源代码,变种众多 目前水平 AskJeeves、百度知道、新浪爱问、雅虎知识堂 TREC的QA Track PowerSet:Natural Language Search? 计算语言学讲义计算语言学讲义(01)概论概论 12 其他问题 音字转换:语音识别、拼音输入 自动文摘:自动给出一篇或多篇文章的摘要 信息检索:在海

10、量的信息准确找到你所需要的 信息 信息过滤:从信息流中筛选出你所感兴趣的信 息 信息抽取:从海量的信息中抽取出你所需要的 (结构化)信息 计算语言学讲义计算语言学讲义(01)概论概论 13 问题驱动的学习(2) 本课程采用问题驱动的学习方法 我们将围绕“机器翻译”和“自动问答”这两 个主要问题,同时兼顾其他问题,来展 开“计算语言学”这门课程的学习 通过大量的实例来加深对课程的理解 侧重汉语的处理 计算语言学讲义计算语言学讲义(01)概论概论 14 内容提要 计算语言学所要解决的问题 计算语言学的定义和特点 课程安排 计算语言学讲义计算语言学讲义(01)概论概论 15 计算语言学定义 计算语言

11、学是一门以计算计算为手段对 自然语言自然语言进行研究研究和处理处理的科学。 计算语言学讲义计算语言学讲义(01)概论概论 16 计算语言学的研究手段 计算语言学的研究手段是计算 计算的基础是冯诺依曼结构的计算机 计算的表现形式是算法 算法:一组有穷的操作规则 确定性:每一个步骤的结果都是确定的 可行性:每一个步骤可在有限时间内完成 输入:有输入 输出:有输出 有穷性:可在有限步骤内停止 算法和程序的联系与区别 计算语言学讲义计算语言学讲义(01)概论概论 17 计算语言学的研究对象 计算语言学的研究对象是自然语言 自然语言与形式语言的本质区别 歧义性 自然语言是一种符号系统 语言符号的特点(索

12、绪尔) 任意性:语言符号的选择是任意的 线条性:语言符号的排列是线性的 计算语言学讲义计算语言学讲义(01)概论概论 18 语言、思维与客观世界 思维 自然语言客观世界 计算语言学讲义计算语言学讲义(01)概论概论 19 语言的层面 (1) 语言研究的层面 语音 语法(包括词汇层和句法层) 语法研究要回答的问题是:一句话为什么可以这 么说而不能那么说? 语义 语义研究要回答的问题是:这句话说了什么? 语用 语用研究要回答的问题是:为什么要说这句话? 计算语言学讲义计算语言学讲义(01)概论概论 20 语言的层面 (2) 语言各层面之间的关系 语言层面的划分反映了语言在不同层次上的 规律性 语言

13、的各个层面是互相交织密不可分的,语 言层面的划分只是为了研究方便,对任何一 个层面的研究都不能忽略其他层面所起的作 用 计算语言学讲义计算语言学讲义(01)概论概论 21 语言在不同层面的歧义性 (1) 语音层面:多音字,同音词 施氏食狮史(赵元任) 石室诗士施氏,嗜狮,誓食十狮。氏时时适 市视狮,十时,适十狮适市,是时,适施氏 适市,施氏视是十狮,拭矢试,使是十狮逝 世,适石室,石室湿,氏使侍拭石室,石室 拭,始食是十狮尸,始识是十狮尸,实十石 狮尸,试释是事。 计算语言学讲义计算语言学讲义(01)概论概论 22 语言在不同层面的歧义性 (1a) 赵元任的另一篇同音古文: 据说翻译完这篇古文

14、后,一中文博士精神崩溃强(转载) 内容: 羿裔熠,邑彝,义医,艺诣. 熠姨遗一裔伊,伊仪迤,衣旖,异奕矣. 熠意伊矣,易衣以贻伊,伊遗衣,衣异衣以意异熠,熠抑矣. 伊驿邑,弋一翳,弈毅.毅仪奕,诣弈,衣异,意逸.毅诣伊,益伊,伊怡,已 臆毅矣,毅亦怡伊. 翌,伊亦弈毅.毅以蜴贻伊,伊亦贻衣以毅. 伊疫,呓毅,癔异矣,倚椅咿咿,毅亦咿咿. 毅诣熠,意以熠,议熠医伊,熠懿毅,意役毅逸.毅以熠宜伊,翼逸. 熠驿邑以医伊,疑伊胰痍,以蚁医伊,伊遗异,溢,伊咦.熠移伊,刈薏以 医,伊益矣. 伊忆毅,亦呓毅矣,熠意伊毅已逸,熠意役伊.伊异,噫,缢. 熠癔 亦缢 计算语言学讲义计算语言学讲义(01)概论概论

15、 23 语言在不同层面的歧义性 (2) 语法层面 词法歧义 词性兼类:工作(动名兼类),在(动副兼类) 词语切分歧义:乒乓球拍卖完了,鱼在长江中游 句法歧义 结构歧义:张三和李四的朋友 组合关系歧义:观赏鱼 计算语言学讲义计算语言学讲义(01)概论概论 24 语言在不同层面的歧义性 (3) 语义层面 一词多义:后门,人大, I can can the can in the can. 结构语义歧义:吃饭,吃食堂,吃大碗 语用层面 鸡蛋! 他去修车了。 计算语言学讲义计算语言学讲义(01)概论概论 25 一个笑话:请客 (1) 旧时年关,有人在家设宴招待帮助过他的人,一 共请了四位客人。 时近中午,还有一人未到。于是自言自语:“该来 的怎么还不来?”,听到这话,其中一位客人心想:“该 来的还不来,那么我是不该来了?”,于是起身告辞而 去。其人很后悔自己说错了话,说:“不该走的又走 了”,另一位客人心想:“不该走的走了,看来我是该走 的!”,也告辞而去。主人见因自己言语不慎,把客人 气走了,十分懊悔。妻子也埋怨他不会说话,于是辩 解道:“我说的不是他们。”最后一位客人一听这话,心 想“不是他们! 那只有是我了!”,于是叹了口气,也 走了。 计算语言学讲义计算语言学讲义(01)概论概论 26 一个笑话:请客 (2

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号