双字组合理解模式探索

上传人:wm****3 文档编号:41196644 上传时间:2018-05-28 格式:DOC 页数:8 大小:81KB
返回 下载 相关 举报
双字组合理解模式探索_第1页
第1页 / 共8页
双字组合理解模式探索_第2页
第2页 / 共8页
双字组合理解模式探索_第3页
第3页 / 共8页
双字组合理解模式探索_第4页
第4页 / 共8页
双字组合理解模式探索_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《双字组合理解模式探索》由会员分享,可在线阅读,更多相关《双字组合理解模式探索(8页珍藏版)》请在金锄头文库上搜索。

1、1双字组合双字组合1理解模式探索理解模式探索王淑华 (上海大学 文学院,上海 200444)提要提要:新词语不断增加,计算机处理真实文本时不可避免地要面对大量的未登录词。本文 认为,从词典中的已登录词出发,描写每个单字的构词属性,如构词时的位置、能产的构 词模式、处于不同位置的单字构词时对另一个构词成分在句法和语义上的要求、组合以后 的意义理解模式等,有助于计算机准确地识别和理解未登录词。 关键词关键词:双字组合 未登录词 意义组合原理引言 近年来,随着社会生活、科学技术以及人们思想观念的发展变化,新词语在不断增 加。 现代汉语词典第 5 版中新增词语有 6000 余条,而现代汉语新词语信息(

2、电子) 词典中一共收录了近 4 万个新词语1。事实上,不管工具书、在线词典等规模有多大、 更新有多快,都不可能覆盖语言中的全部词汇。计算机在处理真实文本时,不可避免地要 面对大量的未登录词2。虽然汉语中的词汇在不断地发展变化,但是用于组词的汉字并没有增加,常用汉字一 直有着极高的覆盖率。据冯志伟(1997)统计:2400 个常用汉字的覆盖率是 99%,3800 个常用汉字的覆盖率是 99.9%。鲁川(2003)指出:随着信息时代的到来, “新词”和“未 登录词”激增,但是“汉字”未增, “这就证明了:汉族人既有用旧字创造新词的能力,又 有看旧字懂新词的领悟力” ,所以“我国人工智能学者和语言学

3、者要通力合作,让电脑模拟 汉族人看旧字懂新词的智力。 ” 3 0.3 不仅组成“新词”和“未登录词”的“汉字”没有增加,而且“新词”和“未登录 词”的内部构造方式也没有变化。亢世勇(2001)和苏新春(2003)的考察结果基本相同3:新词语的构词方法以复合式为主,复合式词语中,又以偏正、述宾、联合三种结构最多。 0.4 苑春法(1995)以汉语语素数据库中的 22016 个复合名词、15666 个复合动词、 3276 个复合形容词为考察对象,比较全面地考察了汉语复合词中词义与语素义之间的关系。 他指出:“复合词的词义和组成复合词的语素意义之间关系密切,语素在构词时意义绝大 多数保持不变,少数变

4、化情况又是有规律可循,这使语素可以在未登录词处理的研究方面 起很大的作用” 。 0.5 基于以上几点,我们认为,加强对单字(单音节语素)构词属性的描写,可以帮助 计算机正确地处理未登录词;明确每个单字构词时对另一个构词成分在语法、语义上的限 制与要求,有助于计算机正确地识别出未登录词;明确每个单字和不同类型的构词成分组 合时的语义表现以及组合后的意义内容,有助于计算机准确地求解出未登录词的词性和意 义。作者简介:王淑华(1976- ) ,女,上海大学文学院博士后。 1 由于汉语中“词”和“短语”经常存在划界不清的情况,因此,本文将两个单音节语素的组合称为“双字组合” ,不刻意强调或区分它到底是

5、“词”还是“短语” 。 2 新词语主要是两种,一种是新产生的词语,一种是旧词产生新义的,即词典中没有进行解释的。未登录词是指词典中没有出现的词语。有些词虽然不是新词语,但词典中没有出现,对计算机来说也是未登录词。3 苏文把“状谓”结构从偏正结构中独立出来进行考察,但不影响结论。21 双字组合的理解模式 1.1 意义组合原理与复合词的词义 意义组合原理(principle of compositionality)也叫弗雷格原理,由现代数理逻辑的创 始人、德国著名的数学家、哲学家、逻辑学家弗雷格(Frege)提出。其基本思想是“一个 复合表达式的意义是它的部分表达式意义的函项”4。美国逻辑学家蒙塔

6、古(Montague)在 此基础上更进一步,主张把自然语言作为与逻辑人工语言本质上相通的一种符号形式系统 进行研究。他认为,不仅复合句的意义由其直接构成成分的意义组合而成,其它语言表达 式(如短语)也是如此。复合语言表达式的意义组合,不仅有直接成分的意义参与,还和 直接成分组合时所用的结构运算的意义分不开。确切地说,复合语言表达式的意义是语形 结构运算的意义对直接成分的意义进行语义运算的结果5。这是蒙塔古对意义组合原理更彻底更严格的表述。 就汉语而言,对于一个由单字 A、B 组成语言单位 AB 来说,单位 AB 的意义不仅与直接 成分 A、B 的意义有关,还和 A、B 的组合方式有关。例如,一

7、个动语素和一个名语素组成 一个复合词,光知道 A、B 本身的意义和性质并不足以求出单位 AB 的意义和性质,还需要 知道 A 和 B 是以什么样的方式组合的。如果 AB 是动宾结构,而且宾语是动词词义内部规定 的内容,那么求解单位 AB 的意义,把 B 的意义代入 A 意义中的相关部分即可;如果 AB 是定中结构,那么一般是把 A 的意义加在 B 的意义之上。1.2 计算机理解未登录词 对于计算机来说,理解未登录词的过程,其实就是一个利用已知条件进行推理的过程。 计算机遇到未登录词时,总是先把它们分割为单个的汉字,处理的首要目的就是要判断单 字是否能够重新组合,如果能组合起来,再进一步判断其性

8、质,求解出词义。正确理解未 登录词,需要下列信息作为基础: (1)每个单字的意义和语法性质; (2)每个单字的构词模式; (3)不同单字对与之组合的另一个单字在语法性质上的要求; (4)不同单字对与之组合的另一个单字在意义上的选择; (5)上下文对该空位的要求。 例如,遇到未登录词“AB” ,计算机首先把“AB”分为 A、B 两个单字,然后判断 A、B 是否有组合的可能。首先要查词典,了解是否有“A ”和“ B”这样的词语模存在, 然后看 A 是否符合词语模“ B”中 B 对空位的要求,看 B 是否符合词语模“A ”中 A 对空位的要求。要求包括两个方面,既有语法性质方面的,也有意义方面的。如

9、果前面几 个条件都符合的话,就可以初步判断,A、B 有组合的可能,然后进一步求解出该单位的性 质和意义,最后放到上下文中进行验证。 上述信息中,第一点词典中一般直接给出。我们以词典中的已登录词为基础,进行简 单的归纳以后,可以得到单字构词的模式,即该字构词时的位置信息。第三点和第四点需 要语言学者对词典中的已登录词进行细致分析、归纳才能得出,获得相关知识以后,可以 把它作为已知信息登录在机用词典中。这一部分也正是本文关注的重点。最后一条是对上 下文进行分析的结果。由于汉语中词的多功能性,上下文对某个空位的要求在很多时候并 不是唯一的,所以它只能起一个验证的作用。理解未登录词,最主要的依据是前几

10、种信息。4 陈波(2000)第 27 页。5 邹崇礼(1995)第 8 页。31.3 本文的方法 本文将以词典中的已登录词为研究基础,借助于词典中单字和已登录词的句法语义信 息以及实词的语义分类体系,寻找单字构词的结构组合模式和语义组合规律,以便运用于 真实文本中相关未登录词的处理。具体的分析,将按照以下几个步骤进行: (1)利用词典和实词的语义分类体系,确定每个单字的句法、语义信息。 (2)收集通行词典中的已登录词语,根据词义与单字字义之间不同的关系类型,总结 出单字构词时的组合条件及组合规律,以便应用于未登录词的求解。具体说来,包括以下 两点: a 单字构词时出现的位置; b 在不同位置上

11、对与之组合的另一单字在句法和语义上的要求。 (3)为了便于计算机理解,将总结出来的相关构词信息用“如果那么”的形 式表示出来。 (4)以上述语言知识和相邻单字的句法语义信息为已知条件,计算机可以据此来识别 和理解未登录词。将语言知识应用于实践,一方面能检验从词典的已登录词中总结出的单 字构词信息的有效性,另一方面又能对词典中的构词信息进行调整补充。 由于篇幅关系,本文仅示例性地考察了一个单音节语素“疗”和不同语素的组合情况, 目的在于寻找出一种帮助计算机理解未登录的双字组合的方法,以期进一步帮助计算机正 确地理解和分析汉语。2 实例分析疗 2.1 词典中的相关信息 现代汉语词典疗:医治。 应用

12、汉语词典疗: 动医治;动书比喻解除痛苦。 其它各词典的释义和这两本词典大同小异。本文采取现代汉语词典的处理方法, 认为“疗”是一个单义语素,因为应用汉语词典中义项下与“疗”组合的语素“饥、 渴、贫、妒”都可以看作抽象的“疾病” ,是特殊的医治对象,这样有利于减少组合的复杂 性。 继续查词典可知:“医治”的意思是“治疗” , “治疗”的意思是“用药物、手术、针 灸等手段消除疾病” 。因此,从词典中可知: (1)“疗”是动词性语素; (2)“疗”的意思是“医治”、 “治疗”或“用药物、手术、针灸等手段消除疾病”。从“疗”的词义中可以看出, “疗”的对象“疾病”是“疗”词义中规定的内容。从词 义可以

13、推出: (3)如果和“疗”组合的宾语与“疾病”有语义上的联系,那么求解该单位的意义是将名语 素代入“疗”意义中的相关位置。2.2 词典中的已登录词 在现代汉语词典 、 应用汉语词典 、 当代汉语词典 、 倒序现代汉语词典中, 我们收集到由“疗”参与的构词共 22 例。列举如下: “疗+X”:疗饥 疗贫 疗渴 疗妒 疗养 疗救 疗治 疗程 疗法 “X+疗”:医疗 诊疗 治疗 放疗 电疗 光疗 蜡疗 理疗 化疗 泥疗 水疗 磁疗 食疗从上述已登录词中,我们可以得到如下信息: (4)“疗”和其它语素组合的时候,可以形成两种词语模,即后空型的词语模“疗 ”,和4前空型的“ 疗”。 (5)在词语模“疗

14、”中,空位上可以是动词性的语素,也可以是形容词性的和名词性的 语素; (6)在词语模“ 疗”中,空位上可以是动词性的语素,也可以是名词性的语素。 “N 疗”式 词语共 9 个,与其它类型相比,在数量上占有一定的优势,可以初步认定为一种能产的词语模。 下面我们将根据词典中已登录词的词义、词性、构词的单字义等相关信息来总结“疗” 和不同类型单字组合时的句法及语义要求,并从中提取出一定的元语言框架作为理解未登 录词的模式。 疗饥 疗贫 疗渴 疗妒 这一组词中,和“疗”组合的“饥、贫、渴、妒”是“疗”的对象,均可以看成广义 的“病” 。 “疗饥、疗贫、疗渴、疗妒”可以理解为“医治饥饿/贫穷/干渴/妒忌

15、”或“通过 某种手段消除饥饿/贫穷/干渴/妒忌这种疾病” 。进一步抽象可得: (7) 如果“疗 ”中的空位是动词性或形容词性语素,并且这个语素可以看成广义的“病” ,那么“疗 X”是动词性的单位,述宾结构,意思是“医治 X”或“通过某种手段消除 X 这种疾病”。 疗程 疗法 这两个复合词中的后一语素“程、法”是名词性的语素,它们都不是“疗”的对象。 查词典可知, “疗程、疗法”是名词,定中结构,意思是“医治的过程/方法” 。进一步抽象 可得: (8) 如果“疗 ”中的空位是名词性语素,并且该语素不是“疗”支配的对象,那么“疗 X” 是名词,定中结构,其意义是“疗”与“X”两个语素意义的相加,即

16、“医治的 X”。 疗养 疗救 疗治 医疗 诊疗 治疗 这一组词中,和“疗”组合的均是动词性语素。其中, “治疗、疗治、医疗”是同义语 素组合,这些词的意义等于其中的任一语素义。 “疗养、疗救、诊疗”是动词,它们的意义 分别是两个语素义的相加,即“医治调养” 、 “医治救助” 、 “诊察医治” 。进一步抽象可得: (9)如果和“疗”组合的另一个单字是动词性语素,并且和“疗”同义语素,那么“疗 X”或 “X 疗”是动词性的单位,联合结构,其意义和“疗”或“X”相等。 (10)如果和“疗”组合的另一个单字是动词性语素,并且和“疗”属于同一个语义场,那么 “疗 X”或“X 疗”是动词性的单位,连动结构,其意义是“疗”、 “X”两个语素意义的相加。 电疗 光疗 蜡疗 泥疗 水疗 食疗 磁疗 这一组词中的第一个单字是名词性语素, “电、光、蜡、泥、水、食、磁”可以看作广 义的用于医治疾病的手段

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号