单词与词组的处理与分析ppt课件

资源描述

《单词与词组的处理与分析ppt课件》由会员分享，可在线阅读，更多相关《单词与词组的处理与分析ppt课件（86页珍藏版）》请在金锄头文库上搜索。

1、,人工智能与机器翻译,主讲：杨宪泽,单词与词组分析,对于机器翻译研究来说，本章的第一任务是要建立语言的机器词典, 这一机器词典是多语言的。例如各自的藏, 英, 汉语机器词库。单词与词组的处理与分析, 对于汉语来说, 首先必须要进行单词的自动切分。自动切分歧义部分是解决的难点, 不但可能用到规则推理, 而且还可能用到语法分析, 语义用分析, 更详细的过程可以结合第六章等一起研究。词语分类和兼类的分析与处理是本章研究的又一重点。本章的最后将研究词处理的一些细节问题。,人工翻译离不开词典，当然，机器翻译也离不开机器词典。机器词典也被称为电子词典，简称词典。机器词典的作用在机器翻译中是最重要的

2、，因为做任何机器翻译工作都必须通过查机器词典来得到相关的翻译元素-单词和词组。如何有效的组织、建立机器词典，如何更好地利用机器词典中包含的各种知识，是一个值得深入研究的课题。,5. 1 . 1 基于分析和转换的机器翻译方法,机器词典的作用：（1）机器词典的好坏是更好的实现实用化机器翻译系统软件的障碍之一。现有的一些机器翻译系统在达到实用化阶段时往往因为机器词典规模的限制阻碍了性能的进一步提高。因为语言词汇是一个开放的集合，无论建立多么庞大的词典，都不可能穷举所有的词。而且，随着时间的推移，还会出现大量的新词。因此，只有尽可能的扩充机器词典的规模，才可能使机器翻译系统更实用，更会被更多的行业

3、、更多的人所接受。（2）机器词典是机器翻译的质量的关键，要达到机器翻译的全自动、高质量，就必须有一部信息丰富、易于使用的机器词典。一部好的机器词典不仅要有庞大的数量，而且要有尽可能高的质量，只要这样，才可能是机器翻译的质量更高。（3）电子词典（机器词典）不仅可以用于机器翻译，而且也可以用在自然语言理解、自然语言处理诸多方面。因此，电子词典（机器词典）是大规模知识工程的基础工作，它可以为知识系统提供一个基本的知识源。,对于机器翻译系统来说，为了适应不同专业领域的翻译要求，需要配有大量的专业词汇。因此，机器翻译系统的词典又可以分为通用词典和专业词典两部分。如专门的缩略语词典、特殊字词典等等。还

4、可以把通用词典再细分为名词词典、动词词典、成语词典等等。机器词典的组织机构对于提高词语的检索速度是非常主要的。一定的组织结构形式和相应的算法相配合，可以节约存储空间，提高检索速度，从而提高机器翻译系统的整体翻译速度。机器词典从存储形式来看，可以分为定长字段型、变长字段型和定变长混合型三种类型；从索引格式看，可以分为一级索引和多级索引等等。词语的长短是不同的，例如，某些常用词的信息特别丰富，书本词典可以占满几页，而有一些词语却只要一行。这样，如果所有词语都使用定长字段，则必须依据最长词语确定字段长度，而相当多的短词语将浪费巨大的存储空间。所以，一般情况下一条词语的有关信息的存储都采用变长形

5、式，这可以用链接技术实现。,5 . 2 自动分词汉语自动分词是我国计算机科学研究的重要课题之一, 它是自然语言理解、自动翻译、电子词典等信息处理的基础性工件。所谓分词, 就是要把一句话, 一篇文章甚至一部著作中的词语逐个逐个的切分出来。汉语不象拼音文字那样有自然切分标志, 而且词语长短不一, 词语的定义也不统一, 语言学中对词的定义多种多样, 造成切分的多样性, 这也自然给自动分词的同一性带来很大困难。汉语中词语本身的词素、词、词组无明显的区分界限, 没有一个统一的标准, 许多东西都是凭经验和语感来划分。.这项工作如果全部交给计算机来作, 就没有那么简单了。尽管计算机自动分词在诸多方面

6、存在着许多困难, 但是由于自动分词是许多应用工作的第一步(也是自动翻译的第一步), 这就促进了研究的持续不断, 提出了不少方法, 它们各有优缺点, 也可能是基于特定环境的。,5. 2 . 1典型的自动分词方法 5 . 2 . 1 . 1 正向最大匹配法和逆向最大匹配法正向最大匹配法是最早提出的自动分词方法, 它的基本思想是先取一句话的前六个字查字库, 若不是一个词, 则删除六个字的最后一个字再查, 这样一直查下去, 至找到一个词为止。句子剩余部分重复此工作, 直到把所有的词都分出为止。逆向最大匹配法也一样, 每次匹配不成功时去掉汉字串中最前面的一个字。两法思路清晰, 易于计算机实现, 但

7、由于试图用相对稳定的词表来代替灵活多变, 充满活力的词汇, 把词库搜索作为判词的唯一标准, 因而具有很大的主观性和局限性。另外, 这两种方法实际上否认了语言中的歧义现象。在实际应用中, 方法有所变化。如下述算法我们初始不是取六个字而是取长度最短词的个数。,A1: 一条汉语语句分划成单一字符X1,X2,XM。 A2: 决定语词中可能出现的词最大字符长度Lmax, 最小字符长度 Lmin。 A3: 逆向匹配,取语句最后的Lmin个字查关键词库, 若查不到, 加入一个字重复此工作,直至字符数为Lmax为止。 A4: 若实施A3查不到词,去掉语句中最后一个字,再实施A3,直至整个语句只剩下L min

8、为止。,5 . 2 . 1 . 2 高频优选法这一方法基于词频的统计、字与字之间的构成结合律和歧义切分等现象的分析而提出来的。根据现代汉语频率词典，对于报刊和政论性文章，不同音节词的词频构成为：双音节词大约有74%；三音节词大约有3 . 7%；单音节词大约有17 . 2%；而五以上字音节词则大约只有0 . 4%左右。汉语是一字一音节，因而也可以说，两字组词的频率比其它所有方式的概率加起来都还要多。自动分词时首先考虑两字词，然后再考虑单字词，如此频率低的词语最后才考虑。这种方法提高了分词效率，但对歧义问题也无能为力，出错率并不低。,5 . 2 . 1 . 3 其它方法设立切分标志切分标志有

9、自然和非自然之分。自然切分标志是指文章的非文字符号，例如标点符号等等；非自然切分标志是利用词缀和不构成词的词（单字词等等）。设立切分标志方法的基本思想就是通过建立非自然切分标志的一张表存储于计算机中用程序来识别所有的非自然标志。这样一来，一个句子链将被化为若干短链，然后再用其它切分方法进行各种细加工，这种多方法合作的综合应用，途径增多，可以大大提高效率。,扩充转移网络分词法它是以有限状态机概念为基础的方法。有限状态机只能识别正则语言，对有限状态机作的第一次扩充可以使其具有递归能力，这样就形成递归转移网络（RTN）。在RTN中，弧线上的标志不仅可以是终极符（语言语句中的各种词语）或非终极符（还

10、没有推导完的词类、符号等等，例如名词N，动词V，形容词A等等），还可以调用另外的子网络名字的非终极符（例如字或字串的成语条件）。这样，计算机在运行某个子网络时，就可以调用另外的子网络，还可以递归调用。目前大多数的自然语言理解系统都把词典组织成一个表，表是静态的。使用扩充转移网络来组织词典就可以构成一个动态的词典，词法扩充转移网络的使用，它使分词处理和自然语言理解系统的句法处理阶段交互成为可能，并且有效地解决了汉语分词的歧义。,全自动词典切词这种方法完全使用切词规则切分词语，其规则中的参数由词典提供。该方法可以部分解决歧义问题，但因是匹配切词，效率不高。规则描述语言切词法规则描述语言是用以

11、描述汉语分词、分析和生成规则的一种工具。其中，整个规则语言将由若干个不同性质的规则块构成，而每一个规则块又包括多条规则，这些规则块的结构一般采用多层次的树型结构（当然，也可以采用其它结构，例如链式结构）。该方法对正确描述汉语是一种有意义的尝试，值得深入研究,多遍扫描联想法这种方法是使用切分标志把文本切分成若干子串。它一般分成两步进行：第一步，使用自然切分标志对文本进行预处理；第二步，利用非自然切分标志结合联想库对文本进行有效的分割。这两布完成以后，再利用实词的词库和联想库将所有词群细分为词。在这种方法的操作中，分词时将要充分利用各种语法知识、联想和回溯机制同时作用分割和细分阶段，其目的在于更

12、有效的解决歧义组合结构的切分问题，并且兼有自动纠错和检错这样的特殊功能。这种方法属于组合方法，方法的基点立足于可靠性、实用性和通用性。神经网络分词法这种方法是模拟人脑功能采用并行、分布处理和建立数值计算模型工作的方法。它将分词知识所分散隐蔽式的方法存入神经网络内部，然后再通过各种自学习和训练修改内部的权值，以达到正确的分词效果，最后给出神经网络自动分词结果。由于神经网络这一学科的研究有许多问题尚未解决，所以此方法还处于探索之中。,专家系统分词法这种方法从专家系统角度把分词的知识（包括常识性分词知识与消除歧义切分的启发性知识，即歧义切分规则）从实现分词过程的推理机中独立出来，从而使知识库的

13、维护与推理机的实现互不干扰，以达到使知识库易于维护和管理。这种方法还具有发现交集歧义字段和多义组合歧义字段的能力和一定的自学习功能。虽然专家系统研究相对成熟，但真正要把这一方法作为完善的机器翻译自动分词方法，还有很长的路要走。综上所述，由于汉语的复杂性。我们很难以某种方法正确地、彻底地自动分词。这些不同的方法，它们各有不同的优点和缺点，适合不同的环境。但是如何比较正确的评价、度量一个方法，则显得尤为重要，这一点将在后面论述。,5 . 2 . 3 自动分词的歧义问题自动分词的难点是歧义切分，而歧义切分字段从构成形式上可分为两类: 一类是交集型歧义切分字段, 一类是多义组合型歧义切分字段。,

14、5 . 2 . 3 . 1 交集型歧义切分字段与解决方法一般情况下，在多义组合型歧义切分字段中，歧义字段就是一个歧义词，而非歧义词被包含在歧义词当中。例如，歧义字段“语言学”同时也就是一个歧义词，而非歧义词“语言”和“学”包含在歧义词“语言学”中。在这种情况下, 机器很难根据多义组合型歧义切分字段本身来获得非歧义词的特征信息, 程序只有跳出多义组合型歧义切分字段自身的框架, 参考歧义字段与其前趋字串或后继字串之间的关系, 才有可能发现正确的切分。这就说明, 为了对多义组合型歧义切分字段本身作出唯一正确的切分,不能只考察歧义字段内部的情况, 还必须考察歧义字段与其前后字串之间的关系。而在交集型

15、歧义切分字段中, 歧义字段本身就可以给我们提供非歧义切分的特征信息, 因此, 多义组合型歧义切分字段的自动切分比交集型歧义切分字段的自动切分要难得多。,有些歧义切分字段具有二重性。例如, 在例句“乒乓球拍卖完了”中, 由名词“乒乓球”和动词“拍”串联组合而产生出多义组合型歧义切分字段“乒乓球拍”,而“乒乓球拍”又与动词“拍卖”交叉组合而产生交集型歧义切分字段“乒乓球拍卖”, 这样一来, 在“乒乓球拍卖”这个字段中, 既有多义组合型歧义切分字段, 又有交集型歧义切分字段。对于这样的具有二重性的歧义切分字段, 切分时也不能只考虑字段本身提供的信息, 还应该考虑该字段与其前趋字串和后继字串的关系。

16、为了正确地切分多义组合型歧义切分字段, 可以利用前趋字串和后继字串的句法、语义、语用3个方面信息。我们来讨论如何利用句法信息: 有些多义组合型歧义切分字段与其前趋字串和后继字串之间,存在着密切的搭配关系,这时就可以利用有关的句法信息得到正确的切分。,(1) 名词+名词例如, 在句子“用树形图形式加以描述”中, 歧义字段“图形式”是由名词“图”与名词“形式”之间的交叉组合产生的“图形”十“形式”。事实上，“图形”是歧义词，它是歧义字段“图形式”在给定句子中错误地切分出来的片段，“形式”是非歧义词，它是歧义字段“图形式”在给定句子中，按正确的切分方式切分出来的片段。 (2) 动词十名词例如，在句子“研究生命的本质”中，歧义字段“研究生命”是由动词“研究”与名词“生命”之间的交叉组合产生的-“研究生”(歧义词）十“生命”(非歧义词）。,(3) 形容词十名词例如，在句子“白天鹅游过来了”中，歧义字段“白天鹅”是由形容词“白”与名词“天鹅”之

展开阅读全文