人工语言脑 自然语言处理装置的研制思路

上传人:小** 文档编号:71047143 上传时间:2019-01-19 格式:PPT 页数:108 大小:1.07MB
返回 下载 相关 举报
人工语言脑 自然语言处理装置的研制思路_第1页
第1页 / 共108页
人工语言脑 自然语言处理装置的研制思路_第2页
第2页 / 共108页
人工语言脑 自然语言处理装置的研制思路_第3页
第3页 / 共108页
人工语言脑 自然语言处理装置的研制思路_第4页
第4页 / 共108页
人工语言脑 自然语言处理装置的研制思路_第5页
第5页 / 共108页
点击查看更多>>
资源描述

《人工语言脑 自然语言处理装置的研制思路》由会员分享,可在线阅读,更多相关《人工语言脑 自然语言处理装置的研制思路(108页珍藏版)》请在金锄头文库上搜索。

1、人工语言脑: 自然语言处理装置的研制思路 Artificial Language Brain,语言工程学专题,面向智能机研制的自然语言处理装置,其实质就是人工语言脑。 1.自然语言能力是在语言系统的建构和言语行为的交际中逐步实现的。个体语言能力的激活和成长过程,为计算机的自然语言能力移植仿生工程提供了蓝本。 2.人类语言的本质属性是语义性;语义系统的本质特点是网络性;语义网络的形成过程是建构性。,提 要,3.计算机不具备语义网络的自建构能力,必须为之建构以供语言编码和解码之用的可计算语义网络。 4.自然语言的编码过程可界定为语义关联,即基于语义网络相关义场之间的节点激活;自然语言的解码过程可界

2、定为语义换算,即基于语义网络相关义场之间的相互阐释。自然语言的运用机制可界定为语境适应,即基于特定语域的语境选择。,5.基于语义语法学理论、元语言学理论和语言系统受限理论,人工语言脑研制工程可分解为语言基因图谱分析工程、认知语义网络建构工程、受限语言能力模拟工程。 6.以义征挖掘和义场建构为基础,以语义范畴提取和语义句模抽象为中枢,以语义网络建构为目标。最小颗粒度:语义特征;最大颗粒度:句法结构;基本功能:生成话语和理解话语。,提 纲,一、迄今未能逾越的语义障碍 二、计算机为何还不开口说话 三、自然语言能力到底是什么 四、如何教计算机一步步学说话 五、语言科学与技术的研究目标,一、迄今未能逾越

3、的语义障碍,虽然计算机的研制初衷缘于数值计算,但是A.M.Turing在机器能思维吗(1950)中已经预见到计算机和自然语言将结下不解之缘,并提出检验计算机智能的最好方法就是语言信息处理能力。 同年,英国工程师A. D. Booth和美国洛克菲勒基金会副总裁W. Weaver就提出了语言自动翻译的设想。,1949年, Weaver提出两点设想:一是翻译类似于解读密码的过程;一是原文与译文表述的是同样的内容。 基于“词典解码论”,早期机译系统的研制思路是试图通过查词典实现词与词的自动机译。 显而易见,Weaver们远远没有看到自然语言在生成和理解方面的复杂性,并不了解人类语言的真正属性。,196

4、6年,美国科学院语言自动处理咨询委员会在语言与机器中指出:机器翻译遇到了难以克服的semantic barrier。 然而这一警示,除了致使机译系统研究一度降温以外,并没有促发语言学界和计算机学界转向语义的深入研究。 80年代,机译系统研究主要是基于语形规则和中间语言的转换方法。其症结在于规则的覆盖度、冲突性以及规则库的规模度,即规则的解释力和穷尽性问题上。,90年代,机译系统研究进入语料库或语言知识库时期。 基于统计的方法是依据平行语料库的词句对译概率统计而获得机译系统。其症结在于统计方法仅仅可以分析线性关系,而无法深入非线性关系。 基于实例的方法是利用双语对齐的翻译实例库而获得机译系统。其

5、症结在于,实际上是把人工译文语篇数码化以供机译系统提取。,显而易见,基于语料库或语言知识库的方法,不过是从词对译到句对译,再到语篇对译的文本处理技术,并非真正的语言能力模拟。 从语言学角度考察,以往的机译系统研究主要依据词汇和语形规则。迄今为止,语义障碍仍然是机译系统道路上的拦路虎。 研制思路不转到语义立场上来,即使补充一些词汇语义和知识背景,也不可能引起机译系统的质的飞跃。,1982年,日本制订了一个为期十年的面向人工智能的第五代计算机研制计划。预期性能有智能接口、知识库管理等。除运用自然语言与人会话并解释图片,还设想具有学习、联想、推理等行为。1992年,只达到了部分预定目标。 随后,又公

6、布了真实世界计算机研制计划。90年代后期宣告:这一项目已经失败,在10年内要完成一项高智能系统是不可能的。,人类的最高智能即语言思维智能,自然语言处理装置未成,谈何人工智能,谈何面对真实世界 ? 智能机研制的“瓶颈”是自然语言处理装置,而自然语言处理装置的 “瓶颈” 是“语义障碍” 。 以词类划分、成分分析、句型归纳为主要特征的语法研究是语形语法学。基于语义性、网络性和建构性的语义语法学。显而易见,基于“人人会话”的语形语法学无法逾越这一“义障”。,二、计算机为何还不会说话?,(一)自然语言能力模拟技术 计算机处理自然语言的技术,可分为语言文本处理技术和语言能力模拟技术。 语言文本处理技术已相

7、当成熟,英特网web和语料库语言学是这方面的典型成果。 语言能力模拟技术包括语音合成技术、机译系统和自然语言处理装置。,面向智能机研制的自然语言处理装置,其实质就是人工语言脑,即通过算法化将自然语言的生成和理解机制输入计算机,使其具有自然语言的运算能力。 尚未配备自然语言处理装置的计算机,即使说上几句话,也是采取语音合成技术预设的“顺读”,并非已经具有使用自然语言的能力。,语音是一个封闭性系统,语音合成技术已经取得重大突破。语义是一个开放性系统,至今仍然是个“黑洞”,人们还知之甚少。 如果说语义是深不可测的“泥潭”,那么语言情感就像虚无飘渺的“云雾”。在语音合成的情感形式化中,势必会遇到一系列

8、障碍。然而,与之相比,语言能力模拟却先一步陷入了语义“泥潭”。,统计方法尽管可以解决文本处理技术中的若干问题,然而,归根结底,语言系统和语言能力并非一堆经过整理后的语料,而是基于语义网络、处于语境模型中的社会行为。 如果认为机译系统工具是基于两种不同的自然语言处理装置的产品,那么自然语言处理装置则是语言能力模拟的核心。,从人脑出发,自然语言处理装置的研制是将人脑语言系统移植于计算机的电子工程;从计算机角度出发,自然语言处理装置的研制是以计算机模拟人脑语言能力的仿生工程。因此这一工程可以称之为“自然语言能力移植工程”或“计算机模拟自然语言工程”,也可简称为“人工语言脑工程”。 只有将人工语言脑研

9、制出来,智能机才可能“一朝分娩”,高质量的机译系统才有可能“应运而生”。,(二)计算机程序造出的语句,个体语言能力表现为具体话语行为。儿童学话是从独词句、双词句到多词句,编写简单语句是掌握和运用日常语言的基础。 要实现人机会话,首先要教给计算机造句智能。以往这方面的尝试,结果并不理想。 比如,给计算机安装上语形语法规则和相应词库的运算程序,然后输入造句指令:,1.词类:名词动词名词 2.成分:主语谓语宾语 3.规则:动词谓语;名词主语/宾语;,计算机反映速度极快,瞬间可能显示出若干句子: 月亮吃石头 太阳洗梨子 在觉得好奇的同时,可以提出同样的要求让儿童来完成: 小明吃苹果 小王洗梨子 ,如果

10、给计算机指定: 动词“吃”,计算机造出的若干句子又出来了: 月亮吃石头 太阳吃青菜 给儿童提出相同的要求: 小明吃苹果 小明吃葡萄 ,面对如此事实,令人陷入如此困惑为什么计算机造的“句子”,语义与现实世界没有一致性,而儿童造出来的却是生活中使用的句子,即具有“可理喻”性呢?,这是因为,我们给计算机的造句知识仅是: 1.单位分布系统:名词、动词、形容词 2.结构语形规则:主语谓语宾语 3.结构成分规则:动词做谓语、名词做主语/宾语,基于语形语法单位和规则,计算机只能依据“主语/名词谓语/动词宾语/名词”运算,造出来的“句子”没有一句不合“语法”,但很难有一句是“人话”。 因此,势必追问为什么儿童

11、造出来的句子“成话”,为什么儿童知道哪些词可以或不可以搭配呢? 这是因为,人脑的造句知识是:,1.语义语法的词类系统:动作、人类、动物、食品 2.语义语法的语义句模:施事动作受事 3.语义网络的关联规则:动作“吃”(用口进食)之前能出现的人类或动物词语有口会吃;动作“吃”之后能出现食物词语可吃 。 4.语形语法的形态变化(与汉语关系不大,略)。,给计算机的三条规则属语形语法规则,而语形语法仅是语义语法的不完全投影。对于西方形态语言而言,语形语法无疑具有相当价值。进入句子的词语必须符合形态规则,否则就是语法错误。,现代汉语并非没有语形,而是汉语结构主要基于语义,且汉语语形与形态手段迥然不同。 两

12、相对照,计算机造句不成人话的原因,就在于缺少语义语法规则。,假如给计算机输入如下语言知识:,1.“吃”动作用口进食 2.“吃”的施事有口会吃 ,比如:小明、妈妈、兔子 3.“吃”的受事可吃,比如:苹果、葡萄、青菜 4.施事位于动作之前 5.受事位于动作之后,然后发出指令造出 “施事动作(吃动作)受事”的结构,计算机则给出:,小明吃苹果 妈妈吃葡萄 兔子吃青菜 ,这些语句不再是词语的随机堆砌,而是与现实世界具有一致性的日常话语。由此可见,语言中的词语组配受制于语义特征。,在形态型语言中,凡语义关联不能成立但符合语形规则的“句子”,只能认定为“毫无意义的词串”。 在语义型语言中,凡病句通常都是语义

13、关联存在毛病。 依据语形语法学的范畴和框架,如词类划分、语形标记、短语层次、句子成分等,不可能有效地驾驭语言的生成机制。 在人机会话的背景下,语法即语义结构之法的本质凸显出来。计算机缺少的正是可计算语义网络。,三、自然语言能力到底是什么?,语言能力是认知能力的一部分,语言符号与外在世界具有象似性。人类语言共同的本质属性即基于象似性认知模式中、以语音为物质手段的语义性。 可以从以下几方面展开进一步的论证。,(一)人类语言的本质属性是语义性,1.形态范畴是先民的认知语义范畴 比如,形态语言中的数范畴:单数、双数、三数和多数,则反映了史前先民对数认知的逐步发展。 语句层面的形态变化性、词语分布性和结

14、构层次性,是认知语义的对象范畴化、关联凝固化和组合包容化的投影。,2.形态范畴和变化手段并非必要 基于原始认知范畴的形态范畴,既不能涵盖后出的语义范畴,其形态标记又不可避免地趋于弱化、混化、以致于脱落,从而最终导致语言结构类型的嬗变。 形态脱落这一现象,既表明了形态范畴的非必要性,又表明了形态范畴与词汇范畴的转化性。形态语言转化为非形态语言的事实,反映了自然语言演化的某种趋势。,3.不同语言相互沟通的基础是语义 之所以不同语言之间能够互译和理解,是因为具有人类语义的沟通性。不同语言的互译理解过程,就是排除语形差异性和实现语义沟通性的过程。 形态语言中的语形语法意义可以转化为另一语言中的词汇语义

15、,也可资证明。 当然,不同语种的语义系统具有一定差别性,根据基本词汇的比较结果,这一差别初步确定为10。,4.古希腊语法研究肇始于语义 古希腊的原初学术是“语言哲学逻辑”的混沌体,语法研究肇始于作为客观世界和精神世界中介的语言意义的哲学思考。 当形态标记被逐步发现以后,才出现了从语形和语义的相互印证到词类形态划分和句法逻辑阐释的转移,最终导致词类划分和句子成分分析的西欧语形语法学框架的形成。,5.语言编码首先启动语义编码 凡人类语言皆有语义编码与语形编码两套程序。依据编码程序的特点,人类语言可以大致分为语形型语言和语义型语言,但无论哪种类型的语言,首先启动的都是语义编码程序。 就英语和汉语而言

16、,其区别性是在语义编码的基础上,前者务必再进行以形态变化为手段的语形编码,后者务必再进行以完句成分为手段的语形编码。,人类语言的本质共性可以进一步概括为 在人类感知对象世界过程中,神经机制依据经验框架致使对象世界语符化,具有实体性和范畴性的音义符号组成的语义结构具有关联性和情境性,语义结构的部分关联性投影为语形规则,语义结构的情境性表现为语用原则,而语义模式具有生成性、层次性和线条性。,根据语言是音义符号系统的观点,语言法则即“语法”,包括语音法则和语义法则两大部分。 在语言符号系统的第一次划分中并没有“传统语法”即语形语法的位置。,语形语法,两千年多来的西方语法学研究,主流是基于屈折语结构的语形语法传统。 无论是追求语形静态系统描写的结构主义,还是追求语形生成转换规则的生成语法,本质上都排斥语义研究。而排斥语义的语形语法规则,却无法控制结构的生成和理解。 虽然中国传统训诂学即传统语义语法研究一向注重语义,但

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号