文档详情

计算语言学-厦大应用语言学

ni****g
实名认证
店铺
PPT
204.50KB
约41页
文档ID:605111614
计算语言学-厦大应用语言学_第1页
1/41

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,计算语言学,一、计算语言学的定义:是利用计算计研究和处理自然语言的学科狭义:指的是通过建立形式化的计算模型,用计算机分析、处理、理解并生成自然语言的学科例:,“,有意见分歧,”,算一算怎么切分合理,是,“,有意 见 分歧,”,还是:,“,有 意见 分歧,”,?,广义:包括狭义的内容;还包括利用计算机对语言文字进行的各种定量化和精密化的研究例1:中国红楼梦的作者:前八十回和后四十回是不是一个人例2:方言亲属关系的计量:,二、计算语言学的发展:,计算语言学的研究首先是从机器翻译开始的1、,圣经创世纪中,“,巴比塔,”,的传说2、17,世纪中叶展开的,“,普遍语言,”,的运动,旨在运用逻辑原则和图形符号的基础上,创造出一种无歧义的语言3、20,世纪,30,年代,法国工程师提出了用机器进行语言翻译的想法,并在,1933,年,7,月获得了一项,“,翻译机,”,的专利,叫做,“,机械脑,”,4、1946,年,美国研制出第一台电子计算机,人们开始用计算机进行翻译的尝试,当时采用的是词对词的策略,所以翻译效果不理想。

如:,I dont know the boy who is waiting outside.,5、,在,1960,年代初期,计算语言学曾因做机器翻译的应用研究,受到各国政府的大力支持而风光一时,然而一直没有满意的成绩于是美国政府委托国家科学院评估机器翻译的计划1966,年该评估报告指出:当时的研究是没有希望做好机器翻译的6、,人们在失败中得到启发,认为要搞好自动翻译,必须在语言理论和计算机科学两方面下足功夫,其中尤其语言处理理论的研究,人们认识到,如果计算机无法理解自然语言,机器翻译等只能是空中楼阁7、计算语言学的进一步发展,音字转换:语音识别,自动文摘:自动给出一篇或多篇文章的摘要,信息检索:在海量的信息准确找到你所需要的信息,信息过滤:从信息流中筛选出特定的的信息(信息安全、突发事件),三、计算语言学的学科分类:就理论研究来看,计算机语言学还可以分为计算语音学、计算词汇学、计算语法学、计算语义学、语料库语言学等不同的分支学科一)、计算语音学:研究如何用计算机对语音信息进行处理,实现语音的自动识别和合成语音识别:机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术语音合成:将可视的文本信息转化为可听的语音信息。

一般来说,完整的语音识别要经历三个步骤:,(1)、语音特征提取:目的是从语音波形中提取随时间变化的语音特征序列2)、,声学模型与模式匹配(识别算法):声学模型通常将获取的语音特征通过学习算法产生在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果3)、计算机对识别结果进行语法、语义分析明白语言的意义以便作出相应的反应通常是通过语言模型来实现清华大学电子工程系,非特定人汉语连续语音识别系统的识别精度,达到948,接近实用水平,语音识别,特定人,非特定人,大词汇量,小词汇量,孤立发音,连续发音,中小词汇量非特定人语音识别系统识别精度已经大于98,满足通常应用的要求,一些用户交换机、机、已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具人们可以通过网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果全球语音识别软件年销售收入达上亿美元5000词邮包校核非特定人连续语音识别系统的识别率达到9873二)、计算词汇学:研究如何用计算机处理自然语言的词汇他笑了 桌子笑了 桌子搬走了三)计算语法学:研究如何用计算机来分析自然语言的语法这种研究在计算语言学中叫做自动语法分析。

花开了花钱了,(四)语料库语言学:语料库,(corpus),亦称语库或素材,是收集并科学地组织起来的一套语言材料,这种材料是某种语言中自然出现的,可以是书面的,也可以是口头的语料库语言学,(corpus linguistics),是以语料库中的语篇,(text),语料为基础对语言进行研究的一门学科四、汉字的信息处理,(一)、汉字与信息处理,笔、墨、纸、砚,甲、骨、金、木,泥、木印刷术;铅、打字机,磁、光、电子计算机,汉 字,面 向人阅读笔画书写,人机互动、编码输入、自动识别,约公元1915年汉字机,约公元1050年,机械性质的整字书写,(二)、汉字输入,汉字输入,汉字键盘输入,汉字识别(OCR),语音识别,印刷体:单体、多体,联机手写,脱机手写,1、汉字键盘输入,汉字形码输入,汉字音码输入,音形码|形音码输入,汉字键盘输入,王码,五笔字型,郑码,T9笔画输入法,全拼,双拼,智能,ABC,,微软拼音,紫光拼音,智能狂拼,极点五笔,五码智拼输入法,大众形音输入法,母字全能码,字词、词组句子;普通话地方拼音输入(广东拼音),编码的优缺点(1),形码的优点,按字型编码,,重码率低,最多四码(不超过,1,万字,理论上讲可以做到一码一字),,适合专业录入员录入写好的文本;,无需顾及读音,,对讲不好普通话的人适用;,不认识的汉字照,“,样,”,可以输入。

形码的缺点,要记忆的东西较多,,难学难记,;,对字形,不同人之间都会有不同的认识,易拆错编码的优缺点(2),音码的优点,与人的语音思维一致,边进行文章的构思边用音码输入,音码的码键就在英文键盘上,不需要改造键盘1958,年以后出生的人,大多数学过汉语拼音,无需专门学音码音码的缺点,汉字同音字太多,重码率高,输入速度受限;,不认识的汉字无法输入,甚至读不准也一样输入不了;,比如:ji有109个同音字:,几及急既即机鸡积记级极计挤己季寄纪系基激吉脊际汲肌嫉姬绩缉饥迹棘蓟技冀辑伎祭剂悸济籍寂期其奇忌齐妓继集给革击圾箕讥畸稽疾墼洎鲚屐齑戟鲫嵇矶稷戢虮诘笈暨笄剞叽蒺跻嵴掎跽霁唧畿荠瘠玑羁丌偈芨佶赍楫髻咭蕺觊麂骥殛岌亟犄乩芰哜,2、汉字识别,电脑的汉字识别功能,是指用计算机对印刷在纸上和手写在纸上汉字的自动辨识,它是中文信息处理中的一项重要功能一个实用的汉字识别系统由,扫描器,计算机主机,显示器,识别软件和字库等部分组成工作过程:,文稿,书刊等通过扫描器输入计算机,提取识别特征后与字库进行比较,并把识别结果显示出来大陆和台湾地区的汉字识别研究都已经巧妙地解决了,单字印刷体,汉字识别,,多体印刷体汉字识别,和,特定手写汉字,识别。

打印稿,识别的准确率一般可达95%印刷汉字识别技术主要包括:,(1),扫描,输入文本图象2),图象的,预处理,,包括倾斜校正和滤除干扰噪声等3),图象版面分析和理解,区分出文本段落及排版顺序,图象、表格的区域;对于文本区域将进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图象区域进行压缩或简单存储4),行字切分:,图象的行切分和字切分5),特征提取,:,提取单字图象统计特征或结构特征6),文字识别:,基于单字图象特征的模式分类将被分类的模式赋予识别结果7),后处理:,识别结果的编辑修改后处理利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程其中,(4),、,(5),和,(6),,是印刷汉字识别中最为核心的技术五、,词语的信息处理,(一)、,自动分词的必要,自动分词:让计算机把以字为单位的书面语流串变为以词为单位的形式就叫做自动分词英语等西方语言的书面形式以空格作为词与词之间分隔标志,而汉语的书面形式却是连续的汉字串自动分词是汉语自动分析中的一项基础性工作中文信息处理的各个领域,无论是在词频统计、情报检索、人机对话、机器翻译等方面,都是在词的基础上进行的分词不当的例子:,在,Google,上输入,“,和服,”,搜索所有中文简体网页,总共结果,507,000,条,前,20,条结果中有,14,条与和服一点关系都没有。

在第一页就有以下错误:,“,通信信息报:瑞星以技术和服务开拓网络安全市场,”,“,使用纯,HTML,的通用数据管理和服务,-,开发者,-ZDNet.,”,“,陈慧琳心口不一化妆和服装自己包办,”,“,外交部:中国境外领事保护和服务指南,(2003,年版,).,”,“,产品和服务,”,备注:现在已经好多了,(二)、自动分词的方法:机械切分、智能切分、统计切分1、,机械切分:运用简单的模式匹配技术的无条件切分1)、正向最大匹配法:,机器中存在一个词表,其中词长的最大值是,N,;根据从前到后的顺序,首先选取一个连续的文本中的前,N,个字符作匹配字段,如果词表中有这个词,那么,就把文本中的这前,N,个字符作为一个词处理,如果没有,那么匹配文本中的前,N-1,个字符作为匹配字段,如此下去,直到匹配成功例子:,“,我们应该开展计算语言学的研究,”,词长是7的切分正向最大匹配法的缺点:,a、,词表设计困难:目前对什么是词还没有一个定论分词系统仍然没有一个统一的具有权威性的分词词表作为分词依据b、,如果,N,设计的过大,就会影响效率c、,如果,N,设计的过小,就会影响正确性d、,有些歧义不能解决如:有意见分歧:正向最大匹配法的分词结果是:,有意/见/分歧/,e,:未登录词无法解决。

2)、逆向最大匹配法:,一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少统计结果表明,单纯使用正向最大匹配的错误率为,1/169,,单纯使用逆向最大匹配的错误率为,1/245,逆向最大匹配法的分词结果是:有/意见/分歧/,但是还是有些词是两种方法都不能解决:,结合成分子时,2、智能切分:模拟人的思维,采用词法、句法、语义、语用等各种知识的有条件切分它通常包括三个部分:分词子系统、句法语义子系统、总控部分在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程这种分词方法需要使用大量的语言知识和信息由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段3、,基于统计的分词方法,:,通过对大规模真实文本的统计,让计算机自己判断什么是词,这样就产生了基于统计的分词方法,又称为无词典分词这类方法分词的依据和主要思想是,:,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词但是也有缺陷,如:了解答题的方法、他想出了解答的办法。

三)、自动分词的问题:,1、歧义字段,(1)、交集型歧义字段:,汉字串,AJB,被称作交集型切分歧义,如果满足,AJ,JB,同时为词,(A,J,B,分别为汉字串,),此时汉字串,J,被称作交集串例,“,结合成,”,:结合,/,成,结,/,合成,让位移等于,50,厘米(让位移:让位,/,移、让,/,位移),这种歧义字段占全部歧义字段的以上交集型歧义字段的消解:,伪歧义:虽然有歧义的可能,但是在真实的文本中只有一种切分结果,如:,挨,/,批评,;,爱,/,国家这一种占约92.6准歧义:通常只有一种切分结果:,其,/,实质、解除,/,了占5.5真歧义:经常有两种切分结果:应用于,;,从小学占1.9%因此可以把伪歧义的切分结果预先放到一张表中,其歧义消解可以通过直接查找实现2)、组合型歧义字段:汉字串,AB,被称作多义组合型切分歧义,如果满足,A,B,AB,同时为词他,/,站,/,起,/,身,/,来,/,他,/,明天,/,起身,/,去,/,北京,/,我一看他的,/,穿着,/,就直到他不是等闲之辈她今天是穿,/,着,/,一身礼服出去的你们,/,后天,/,再来吧,到,/,家,/,后,/,天,/,就黑了。

2、未登录词的处理:,未登录词:词典中未列入。

下载提示
相似文档
正为您匹配相似的精品文档