中文自动分词系统设计+文献综述

上传人:豆浆 文档编号:16820783 上传时间:2017-11-09 格式:DOC 页数:20 大小:42.50KB
返回 下载 相关 举报
中文自动分词系统设计+文献综述_第1页
第1页 / 共20页
中文自动分词系统设计+文献综述_第2页
第2页 / 共20页
中文自动分词系统设计+文献综述_第3页
第3页 / 共20页
中文自动分词系统设计+文献综述_第4页
第4页 / 共20页
中文自动分词系统设计+文献综述_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《中文自动分词系统设计+文献综述》由会员分享,可在线阅读,更多相关《中文自动分词系统设计+文献综述(20页珍藏版)》请在金锄头文库上搜索。

1、-范文最新推荐-1 / 20中文自动分词系统设计+文献综述随着社会的发展,科学的进步,人类在不知不觉中进入了一个“信息大爆炸”的阶段,人类通过电视、报纸、收音机、户外媒体等所接触的各种资讯以飞一般的速度增长。在这个各种文字信息快速传播的社会里,无论是个人、企业还是国家,信息的重要性与日俱增。在这个接触过程中,计算机所参与的分量越来越多,人类的各种语言和符号是人类之间相互交流,理解彼此间意图的一个纽带,在这个过程中,语言起到了一个根本性的作用。7829当人们发现计算机在很多发面能够帮助人甚至代替人完成一系列的工作,人类就期望计算机能够直接理解人类的语言,甚至能够在某种程度

2、上具有一定的智能。但是由于计算机不能直接处理人类的自然语言,因此必须通过特定的软件和人机接口来达到这种目的,使计算机能够理解人们要它做什么,以及应该怎么做。如何高效、快速、准确的处理海量文字信息成为了技术人员和实际工业界应用的热点。在中国,据统计80%以上的信息是以语言文字为载体。国务院制定的国家中长期科技发展纲领中也明确指出:“中文信息处理市高新技术发展的重点”。计算机在数字处理和运算方面的成就都已有目共睹。相比这些领域的应用,在自然语言处理方面,无论发展程度还是使用程度都相对滞后。从研究现状来看,自然语言理解和处理的理论体系仍未在真正意义上建立,技术手段仍然比较单一

3、。自然语言作为人类思想感情最基本、最直接、最自然地表达方式,是人类社会中最常用的交流工具。随着信息时代的到来,人们使用自然语言进行通信和交流的形式也越来越趋于多样性、灵活性和广泛性。然而,人脑是如何来建立自然语言的思维过程?如何来建立自然语言、知识和客观世界之间可计算的逻辑?诸如此类一系列问题一直困扰着自然语言处理的研究者们。目前用计算机来处理自然语言的应用大部分情况下都不能满足人们的需求。语言之间的障碍已成为21 世纪制约人类发展和全球化的一个重要因素,自然语言处理的研究肩负着打破不同语言之间的壁垒,-范文最新推荐-3 / 20为人与人、人与计算机之间的交流提供高效实用支持的重大任务。 分词

4、技术作为自然语言处理的基本环节,同时也是关键环节之一,它的质量好坏直接影响到后续处理步骤的效果。其中,中文分词由于中文结构的特点,与西方国家文字相比更难以处理。汉语的词汇与词汇之间没有显式的边界,汉语的分词需要通过计算机对文字内容的分析,来达到切分词汇的目的。中文分词已成为计算机处理汉语面临的首要基础性工作。只要提高中文分词系统的准确率和工作效率,才能使自然语言处理系统稳定高效地工作。相信在不久的将来,计算机科学技术的进一步发展能将人类文明推向新的高度。2 中文分词概述21 中文分词的概念 2.1.1 什么是中文分词中文分词是中文信息处理技术中最基础、最关键的一个环节。所谓中文分词,指的是将一

5、个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。5我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。比如英语句子“A lazy youth,a lousy age”,中文意思为“少壮不努力,老大徒伤悲”。对于英语句子来说,只有通过空格和标点符号来切分即可,并且不会产生歧义。在中文句子“少壮不努力,老大徒伤悲 &rdq

6、uo;中“老大”和“老”、“大”都有可能构成词,要让计算机明白什么时候应该切分出一个词汇,相对于英语来说,难度有质的不同。中文分词的过程,就是要把一句话中有意义的词汇-范文最新推荐-5 / 20都切分出来。在“少壮不努力,老大徒伤悲”这句话中,正确的切分应该是“少壮/不/努力,老大/徒/伤悲” 。 2.1.3 中文分词的应用中文分词主要应用于信息检索、汉字的只能输入、中外文对译、中文校对、自动摘要、自动分类等很多方面。下面就以信息检索为例来说明中文分词的应用。通过近几年的发展

7、,互联网已经相当普及,互联网上的信息也在急剧膨胀,在这海量的信息中,各类信息混杂在一起,要想充分利用这些信息资源就要对它们进行整理,如果有人来做这项工作,已经是不可能的,而如果面对中文信息不采用分词技术,那么整理的结果就过于粗糙,而导致资源的不可用,例如:“实现在情报方面的自动化”和“现在是时候出发了” 中都有“现在”,被当做同一类来处理,结果是检索“现在”的相关信息,会将他们都检索到,在信息量少的情况下,似乎还能够忍受,如果是海量信息,这样的结果就会令人讨厌了。通过引入分词技术,就可以使机器对海量

8、信息的整理更准确跟合理,在“实现在情报方面的自动化” 中“现在”不会被当做一个词来处理,那么检索“现在”当然不会将它检索到,使得检索结果更准确,效率也会大幅度的提高。如今中文分词技术主要应用领域有以下几个方面:1)汉语语言理解:理解的基础是以词而不是以字为单位。现在有关汉字的处理技术已经达到了实用化,但是汉语理解技术领域,研究工作尚处于试验阶段,采用的方法也大多是英文语言的理解方法。但汉语和英语是两种有巨大差别的语言,在技术应用上很难照搬,必须下工夫探索与汉语语言特点相符合的语言理解技术。中文分词就是一个手先要解决的关键问

9、题。2)计算机系统的汉语接口:包括系统软件、各种数据库系统、统计处理系统以及各类人工智能系统等。这种类型系统的使用目前停留在“格式化的格-范文最新推荐-7 / 20式”阶段,即只有当人们熟悉并掌握了一个系统的形式化命令之后,才有可能使用该系统,良好的汉语人机接口必须建立在汉语理解技术的基础之上,所有接口的发展程度也与中文分词密切相关。 2.1.4 中文分词系统的目标把字串分隔成词串, 就是中文分词系统需要做的工作。显而易见, 自动识别词边界, 将汉字串切分为正确的词串的汉语分词问题无疑是实现中文信息处理的各项任务的首要问题, 也是汉语分词系统的主要任务。简而言之, 即要

10、求准确、高效、通用及适用。1)准确性准确率是分词系统性能中最重要的核心指标。现在的分词系统中你,有些准确率已达到 98%99%, 光从数据上看似乎已经很高了, 其实不然。这样的分词系统如果被用来支持中外翻译系统,现在假设平均每句语句有 10 个汉语单词,那么以之前的概率来计算,10 句语句中就会切分错 1-2 个词,含有错误分词的 1-2 个词就不可能被正确翻译。于是仅仅由于分词阶段的准确度欠佳, 中外翻译系统的翻译准确率就降低10% 20%。进一步分析,对中文分词来说,其更大的作用是对大规模语料库进行加工,从而为上层系统提供统计数据和各种知识。如果分词产生错误则会在最后的统计结果中积累起不可

11、忽视的“垃圾”,从而给上层的应用系统带来相当严重的影响。由此可见, 分词系统的准确率应达到 99.9%以上,这样才能基本满足上层使用的要求,换句话说,及时提高千分之一的准确度,对实际应用都是非常有意义的。2)运行效率分词是各种汉语处理应用系统中共同的、基础性的工作,这步工作消耗的时间应尽量少,应只占上层处理所需时间的一小部分,并应使用户没有等待的感觉, 由于汉语自然语言处理的应用系统处理对象越来越多的是大规模语料库,所以分词系统的处理速度越快越-范文最新推荐-9 / 20好,在普遍使用的平台上大约每秒钟处理 1 万字或 5千词以上为宜。3)通用性随着互联网的普遍应用,中

12、文平台的处理能力不能仅限于我国,仅限于字处理,仅限于日常应用领域。作为各种高层次中文处理的共同基础, 自动分词系统必须具有很好的通用性。分词系统应支持不同地区的汉语处理,能适应不同地区的不同用字、用词,不同的语言风格,不同的专有名词构成方式;支持不同领域的应用以及不同的应用目标。同时, 系统还应该具有良好的可移植性, 能够方便地从一个系统平台移植到另一个系统平台上而无需很多的修改。当然, 完全的通用性很难达到。 近些年来,随着中文电子文本的增多,计算机处理速度的日益增长。虽然需要投入较多的前期语料库预处理,但是考虑到统计模型的良好分词效果基于统计的分词方法越来越受到众多研究人员的青睐。但是,究

13、竟哪种分词方法更好,能够成熟的用于分词系统,目前尚无定论。实际上不能简单依靠单一算法实现,现在的成熟分词系统往往都需要综合不同的算法。下面将对几个比较有代表性的在当时产生了较大影响的中文分词系统做一下简单介绍:1) CDWS(The Moderm Written Chinese Distinguishing Words System)自动分词系统是我国第一个实用性的中文分词系统,由北京航空航天大学计算机科学与工程系于 1983 年设计实现的。CDWS 系统采用的自动分词方法为最大匹配法,辅助以词尾字构词纠错技术。CDWS 的切分精度约为 1/625(人工干预,不考虑多音字构成所引起的分次错误)

14、 ,基本上满足了词频统计和其他一些领域的应用要求。CDWS 系统是在HP3000 计算机上设计实现的,其分词速度为 510 字/ 秒。同时,在自动分词的理论上做了深入细致的探讨,首次证论了自动分词的可行性,初步建立了一个描述书面汉语的计算模型,对自动分词的有关概念和术语都给出了明确的定义,并且把歧义切分字段也首次作了分类。3-范文最新推荐-11 / 202) ABWS(Association-Backtracting Word Segmention)现代汉语自动分词系统是山西大学计算机系研制的自动分词系统,系统使用的分词方法称为“两次扫描联想回溯” 方法。用联想-回溯来有效地解决歧义组合构成的切分同时兼有自动检错和纠错的功能。该系统由语料管理、

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号