汉语自动分词与内容分析法研究(1).docx

资源描述

《汉语自动分词与内容分析法研究(1).docx》由会员分享，可在线阅读，更多相关《汉语自动分词与内容分析法研究(1).docx（2页珍藏版）》请在金锄头文库上搜索。

1、汉语自动分词与内容分析法研究(1)前言汉语自动分词是目前中文信息处理中公认的难题，因为汉语自动分词是自然语言理解、机器翻译、信息检索、语言文字研究、汉语文本自动标引、内容分析等研究领域中最基本的一个环节，也是中文信息自动处理的“瓶颈”。如果能突破这一“瓶颈”，那么中文信息的自动处理就会迎刃而解，甚至意味着中华民族文化复兴的开始，因为它已经为汉语走向全世界打开了一扇方便之门。近年来，由于计算机技术的飞速发展，汉语自动分词研究取得了突破性进展，其应用研究也越来越受到人们的重视，应用范围也越来越广。内容分析就是汉语自动分词应用研究的重要领域之一，因为汉语自动分词是内容分析法的前提和基础。随着内容

2、分析法的兴起及其广泛应用，研究汉语自动分词在内容分析法中的应用就变得十分迫切和必要了。1已有的分词方法为了克服汉语词计算机自动切分这一难题，许多年来，大量的学者都加入了这一领域的研究，使汉语自动分词取得了丰硕的研究成果。归纳起来，目前国内公开报道过的汉语自动分词系统采用的分词方法主要有三种类型18： (1)机械分词法。又称词典式切分法。机械分词法主要有最大匹配法（MM法）、逆向最大匹配法(RMM、OMM、IMM)、逐词匹配法、部件词典法、词频统计法、设立标志法、并行分词法、词库划分和联想匹配法等。 (2)语义分词法。语义分词法引入了语义分析，对自然语言自身的语言信息进行更多的处理，如扩充转移

3、网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、约束矩阵法、语法分析法等。 (3)人工智能法。又称理解分词法。人工智能是对信息进行智能化处理的一种模式，主要有两种处理方式：一种是基于心理学的符号处理方法，模拟人脑的功能。像专家系统即是希望模拟人脑的功能，构造推理网络，经过符号转换，从而可以进行解释性处理。一种是基于生理学的模拟方法。神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。以上两种思路也是近年来人工智能领域研究的热点问题，应用到分词方法上，产生了专家系统分词法和神经网络分词法9。2当前汉语自动分词研究的重要趋势汉语自动分词是一个综合性的难题，涉

4、及到众多的学科和研究领域，需要多个学科的研究成果作为基础。但是随着科学技术的快速发展，汉语自动分词也并非遥不可及。根据目前汉语自动分词的研究现状，以及相关学科的发展情况，汉语自动分词有望在三个重大研究领域取得突破性进展。 2.1克服汉语文本切分中的困难，继续研究传统文本切分的有效方法目前，汉语自动分词的研究重心主要集中在克服传统文本切分中存在的困难，对传统文本的有效切分上。在计算机科学、情报科学和语言文字研究三个领域的学者专家们的共同努力之下，传统文本的有效切分已经取得了重大进展。 (1)汉语词的规范研究。汉语词的规范是汉语自动分词的基础。没有统一和明确的汉语词的定义，没有规范的汉语分词词表

5、，汉语自动分词就无从谈起。在汉语语言学家和计算机中文信息处理专家们的共同努力之下，目前，我国汉语词的规范研究和汉语分词规范词表的制定已经有了较大突破。信息处理用现代汉语分词词表的制定及不断完善，说明了我国在汉语自动分词词表方面取得了重大研究成果，这为汉语自动分词的研究铺平了道路1014。 (2)汉语词自动分词算法研究。分词算法研究是汉语自动分词的重点和难点，每一次分词算法上的突破都会使汉语自动分词的速度和精度有较大提高。据不完全统计，目前，在汉语自动分词方法和算法研究中，已经出现了上百种分词方法和算法1519。传统汉语自动分词要获得新的突破，只能结合新的信息技术，在分词算法上做文章，必须在现有

6、的分词算法和方法的基础上找到新的分词算法，这是今后汉语自动分词努力的重要方向之一。 (3)汉语自动分词歧义处理研究。汉语自动分词的主要困难是歧义切分，而歧义在自动分词中普遍存在。随着自动分词研究的突破，分词歧义处理研究也取得了重大进展。以前的消歧方法大体可分为两类：规则方法与统计方法20。由于自动分词中存在三种歧义类型，不同类型的歧义，其产生的根源和消除的方法各不相同。因此，应针对不同的歧义类型采取不同的解决方法。对于第一类歧义，由于他们本身就是汉语言中的歧义问题，解决这类歧义需要依靠上、下文语义信息，即增加语义、语用知识的处理。这无异对自动分词的效率有很大的影响（时间上和空间上），而且实现起

7、来比较困难。若是在词处理的相应阶段，结合对分词阶段未解决的歧义字段进行处理，则会起到事半功倍的效果。统计表明，第一类歧义字段不到整个歧义字段总数的1/30，因此不必在分词阶段花费巨大的开销来处理它们。目前对第二类歧义处理方法主要有以下几种：分词知识处理法、联想回溯法、基于词频统计的方法、邻接约束法、基于数学期望的方法。处理第三类歧义目前主要有两种方法：一是增加构词知识，扩大词典，二是增加临时词典。此外，还可以人工干预分词，人工分词与计算机自动分词结合。在遇到计算机解决不了的歧义时，借助于人工干预来完成。为了有效地消除歧义字段，还可以在上述方法的基础上建立分词歧义知识库或规则库2123。随着计算机技术和汉语语言研究的进展，汉语词自动切分歧义处理技术将会有更大的突破。

展开阅读全文

汉语自动分词与内容分析法研究(1).docx

最新文档