计算机汉语句法自动分析及翻译研究

上传人:suns****4568 文档编号:83155030 上传时间:2019-02-26 格式:DOCX 页数:134 大小:190.52KB
返回 下载 相关 举报
计算机汉语句法自动分析及翻译研究_第1页
第1页 / 共134页
计算机汉语句法自动分析及翻译研究_第2页
第2页 / 共134页
计算机汉语句法自动分析及翻译研究_第3页
第3页 / 共134页
计算机汉语句法自动分析及翻译研究_第4页
第4页 / 共134页
计算机汉语句法自动分析及翻译研究_第5页
第5页 / 共134页
点击查看更多>>
资源描述

《计算机汉语句法自动分析及翻译研究》由会员分享,可在线阅读,更多相关《计算机汉语句法自动分析及翻译研究(134页珍藏版)》请在金锄头文库上搜索。

1、计算机汉语句法自动分析及翻译研究摘要 本文是跨两个领域进行的,汉语语言学和计算机科学. 概括地说,涉及到两大问题: (1).汉语的句法规律是什么 (2).如何让计算机处理这些规律 具体地说,讨论了三个问题: (1).汉语形式句法规则体系的建立 (2).句法分析算法的设计和实现 (3).汉英翻译中句子分析的难点 取得了一些点滴的成果,主要有以下七个: (1).提出了汉语短语规则体系的三级模式,并给出了各级规则的一些制定原则. (2).拓展了汉语短语分类层次体系 (3).为短语的属性集引入了句法成分、同形短语等一类指针型属性.使得根节点可以全面地掌握整棵树的信息. (4).对Tomita算法进行了

2、改进,使得算法对短语的规约更准确. (5).提出了同形同构短语的概念. (6).提出了属性约束的强弱两种理解,对应地,有强弱两种合一运算. (7).进行了规则为主、统计排歧为辅的分析方法的尝试.关键词: 汉语句法规则 汉语句法分析 机器翻译ABSTRACT The research in this paper conserns two domains,one is Chinese liguistics,the other is computer science. In broad outline,this paper studies two major problems of Chinese

3、Computational liguistics: (1).What are the syntactic regularities of Chinese (2).How computer uses the regularities to process Chinese information In specific outline,this paper has finished three works: (1).construct Chinese syntax rule system (2).design and implement a Chinese sentence parser (3).

4、reveal the difficulties in Chinese-English translation systematically This paper has some small achievements,list as follows: (1).put forward three grades of Chinese syntax rules (2).extend the hierarchical structure system of Chinese phrase (3).extend the phrase attributes,including syntactic const

5、ituent and oviparous phrase etc. (4).improve famous Tomita algorithm (5).define oviparous phrase (6).put forward strong and weak definitions of attribute binding (7).practise the approach which is rule-based and assisted by statisticsKEY WORDS : Chinese syntactic rule Chinese syntactic parser Machin

6、e Translation摘要1ABSTRACT2前言1第一章 汉语句法规则2第一节 面向形式化的汉语的特点2一.采用的语法体系2二.基本术语的定义2第二节 制订句法规则的语言学基础3一、汉语的词类 3二、汉语短语的分类 3三、词和短语的属性描述4第三节 制订句法规则的原则4一、处理语料的界定5二、不同级别规则的使用5三、要注意的问题6第四节 描述规则的形式语言7第五节 汉语句法规则体系8参考文献8第二章 句法自动分析10第一节 句法分析的语言学方法10第二节 自动分析方法10第三节 对Tomita算法的改进和实现10一、Tomita算法思想11二、Tomita算法的缺点11三、分析表的改进1

7、2四、Tomita分析算法的改进13五、分析实例16第四节 属性表达式的计算方法18一、属性表达式的说明18二、属性约束项的计算19三、属性约束项左部和右部复杂特征集的求取21四、属性传递项的计算21五、讨论22第五节 统计排歧22一、基本思想22二、评估模型22三、统计知识来源 (参考文献 11 12)23第六节 句法分析中其他排歧手段24一、理论基础24二、最大匹配法24三、最少节点法24第七节 几个问题的讨论25一、基于关键词的搜索分析法25参考文献:25第三章 汉英翻译的难点27第一节 翻译概论27第二节 一般机器翻译的难点27第三节 汉英翻译的难点27一、概论27二、汉语语义分析的难

8、点28三、小结31参考文献32第四章 系统简介33一、开发环境33二、系统概况 :33三、系统的评价33四、程序所用的重要数据结构34余论36一、自然语言理解的最高问题 (参考文献1)36二、关于研究的方法37三、机器翻译中的歧义现象的判断37参考文献38后记39致谢40附录1 汉语词类表41附录2 汉语短语分类体系 42附录3 汉语动词属性集的说明44附录4 规则描述语言形式定义46附录5 核心规则48附录6 语型规则51附录7 与动词打有关的成语规则53附录8 汉语语义分类体系54附录9 句子分析的详细过程示例63附录10 一个句子分析出来的所有短语90附录11 句子分析结果示例94前言

9、在语言学中,句法分析是重要的研究课题.相应地,在计算语言学中,句法自动分析是研究的热点. 句法分析就是要搞清句子中的词是如何组成句子的,每个词的功能是什么,词与词之间的关系是什么. 句法自动分析则是让计算机去完成上述任务.在以前的句法自动分析的研究中,研究者往往把研究的重点放在算法的设计上.笔者认为在计算机科学迅速发展的今天,对语言本身的研究也许更重要.因此本文大量的篇幅是在讨论汉语的语言知识,以及这些知识的形式化和组织. 全文共分四章.第一章主要讨论汉语句法规则体系的建立,它涉及到的各方面语言知识和这些知识的组织,以及我们建立规则体系的一些原则.第二章主要讨论句法分析算法,对著名的Tomit

10、a算法进行了一点修改,共提出了五个相关联的算法;在本章第四节讨论了属性表达式的计算方法,可看作是对合一算法的一点探索,共给出了三个算法;本章后部对统计排歧进行了讨论,将统计的方法结合到规则的方法中去,这只能算是很初步的尝试.第三章主要讨论汉英翻译的一些具体难点,这些难点不是零散地提出,而是在一个系统的思想指导下提出的,这些难点构成了一个难点层次结构,因此我们能够有理有序地探索解决它们的方法,促使汉英翻译向分析更深、生成更佳的方向发展.第四章简介笔者实现的系统. 文中的余论属于研究之余的一点心得,仅供读者参考. 全文共有八个附录,为的是读者能够对汉语有较具体、全面的认识,它对读者更好理解本文是必

11、不可少的.有的附录是很多老师、同学(包括合作单位)多年研究心血的结晶,有志于汉语自动理解、翻译的同仁切不可忽视. 笔者独立完成或作为主要人员参与完成的有意义的工作主要有: (1).提出了汉语短语规则体系的三级模式,并给出了各级规则的一些制定原则. (2).拓展了汉语短语分类层次体系,基本满足了实际使用中的需要 (3).为短语的属性集引入了句法成分、同形短语等一类指针型属性.使得位于父节点的短语不仅能够查询其中心成分的信息,还可以查询其他成分的信息,而且还可以不断地深入查询各个成分的下位成分的信息.因此,从根节点可以全面地掌握整棵树的信息. (4).对Tomita算法进行了修改,使得算法对短语的

12、规约更准确. (5).提出了同形同构短语的概念,它类似于词的同形. (6).提出了属性约束的强弱两种理解,对应地,有强弱两种合一运算. (7).进行了规则为主、统计排歧为辅的分析方法的尝试.在笔者所见的关于汉语句法分析的文献中,只有统计为主、规则为辅的研究报告.第一章 汉语句法规则第一节 面向形式化的汉语的特点 一.采用的语法体系 句法自动分析的基础是形式语法.自然语言的形式化很难,而汉语又是难中之难.有人甚至提出了汉语意合语法的学说.12 认为汉语的构词成句基本是由意义之间的搭配关系决定.而这些意义没有形态标记,无法形式化. 但是没有形式化,就没有计算机的处理.目前只能尽力发掘各种语言意义的

13、形态标记,在形式化的范围内尽可能多地处理语言现象. 本文基本遵循朱德熙先生的语法体系. 二.基本术语的定义 语法一般分为词法和句法两部分.词法包括词的分类、词的构造,以语素作为基本单位.句法以词作为基本单位,词、短语、句子、句群等形成一个系列,构成一个结构层级系统.汉语语法的中心课题是句法.而句法的中心课题是短语.汉语句子不过是独立的短语而已,短语具有一定的语调即实现为句子11. 本文的句法研究到句子(尤其陈述性单句)为止. 应当注意,上面提到的各个术语在语言学界都没有精确的定义.而形式化要求一切都是精确的.本文对它们作强制性的定义: 词 - 如果一个语言符号串登录在词典中,则认为它是一个词.

14、 短语 - 由词按规则组成的语言符号串. 句子 - 主谓短语带上句号或感叹号. 词典和规则都是形式化的知识库. 另外,有一些术语后面经常用到,也说明如下: 同形词 - 文字、词类相同但意义不同的词. 这里没有考虑词的读音问题(参考文献 14).如动词保管,它有两个同形词.一个意义是保存,另一个意义是担保. 同形异构短语 - 文字、短语类相同但内部结构不同的短语. 如短语研究计划,它有两个同形异构短语,在下面的例句1中是动词性短语,在例句2中是名词性短语. 例句1: 他们在研究计划. 例句2: 他们在讨论研究计划. 同形同构短语 - 文字、短语类、内部结构相同但意义不同的短语. 同形同构短语与同形词是对等的概念,它总是因为构成短语的直接成分存在同形同构现象.如短语打下去,它在下面两个句子中外部语法功能和内部语法结构都是一样的,但意义不一样. 把敌人打下去.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号