中英文混合分词方法及应用研究

资源描述

《中英文混合分词方法及应用研究》由会员分享，可在线阅读，更多相关《中英文混合分词方法及应用研究（48页珍藏版）》请在金锄头文库上搜索。

1、河北农业大学硕士学位论文中英文混合分词方法及应用研究姓名：田占霄申请学位级别：硕士专业：计算机应用技术指导教师：郝书珍；韩宪忠 2009-06-15 摘摘要要随着科学技术的迅猛发展,计算机在各个领域得到了前所未有的广泛应用。已从过去的数据处理、信息处理发展到现在的知识处理和对语言文字的信息处理。自从 20 世纪 80 年代初，中文信息处理提出自动分词以来，众多专家和学者在这一领域取得了令人可喜的进展，并且基于中文分词的算法也随着信息的多元化，复杂化在不断的升级，改进和完善。分词算法在信息检索，自动归档等领域都有着广泛的应用，但是由于中国经济的飞速发展使得中国与世界的联系

2、更加紧密，在一些前沿领域或是国人刚刚开始涉足的领域就难免要借鉴和引用一些发达国家的科研成果或创新理论。这样，信息的形式就难免要使用中外语言混合的形式来表达，特别是中英文混合使用的情况将会越来越普遍。这就要求信息处理系统不仅能够将中文正确分词，还要能够对中英文混合的情况正确分词。目前有关中英文混合分词的研究相对较少，还没有形成比较成熟的理论,中英文混合分词的规范、评价体系还没有建立。对于中英文混合字段一般是将中文汉字和英文字母、中文汉字和阿拉伯数字、英文字母和阿拉伯数字直接分开，没有对其进行词的判断和消岐处理。基于此课题首先研究中英文混合的新特点，并着重研究了中英文混合分词

3、的算法，特别是混合分词的消岐问题。本文主要研究了中英文混合的形式、结构以及人们使用中英文混合的习惯，分析了现有的中文分词算法，提出了一种实用的中英文混合分词算法。对于分词难点之一的消歧问题，本文做了深入的研究，并在现有消歧算法基础之上分析了需要继续消歧的原因并且给出了具体实施方法。对于最大词长问题的解决本文充分考虑了分词速度的要求，提出了以待切分字符串的双首字开始的 Hash 词典的词长和待切分文本的长度进行比较从而确定 RMM 的最大词长。为了验证该算法的效率，开发了中英文混合分词系统，以中国风能信息中心系统为例对中英文混合分词算法做了试验验证。试验表明，该算法能够有效的将

4、中英文混合文档正确的分词，其消歧率到达了较高的水平，算法对未登录词中的姓名名词也有很好的识别能力。最后依据算法的分词结果初步达到了文章自动分类归档的目的。关键词：中英文混合分词；Hash；RMM；消歧；未登录词 Chinese and English Mixed Segmentation Method and Applied Research Author:Zhanxiao Tian Supervisor: Professor Shuzhen Hao Xianzhong Han Major: Computer Applied Technology Abstract With the ra

5、pid development of science and technology, computer has been widely used ever. It develops from the data processing to knowledge processing. Since the early-1980s, Chinese information processing has proposed the automatic segmentation, many experts and scholars in this field have made great progress

6、. The algorithm also has a wide range of applications in information retrieval, automatic archiving and other areas. The link between China and the world has been more closely due to the rapid development of Chinas economy, however, we unavoidably use the experience of other countries for reference.

7、Such informations form unavoidably must be used Chinese and foreign language mixed to express our thought, especially Chinese and English mixed form. This set a higher request to the information management system,. At present, the research of Chinese and English mixed word segmentation is relatively

8、 few, and it has not formed a quite mature theory. The Chinese and English mixed word segmentation standard and the appraisal system have not been established. Based on this, The paper has studied the new features of Chinese and English mixed form and proposed a new algorithm. This paper has mainly

9、studied the Chinese and English mixed form, the structure and the use custom. It aslo presents a practical segmentation algorithm of Chinaese and English mixed. The removing ambiguity is one of the difficulties of segmentation.This article has done the thorough analytical study and proposed the impl

10、ementation method. for continuing removing ambiguity. To solve the biggest word length, a method which compared the length of the first two-character string beginning Hash dictionary of the waiting string with the length of the text to determine the maximum word length of RMM has been proposed. The

11、experiment indicated that using this article proposed method can split the words of Chinese and English mixed effectively. The method can not only keep a higher level of removing Ambiguity, but also do well in unknown word identification. Finally it arrived at the goal of article automatic sorting b

12、ased on the algorithm participle result. Keywords: Chinese and English mixed word segmentation; Hash; RMM; Removing Ambiguity; Unknown word 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得河北农业大学河北农业大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文

13、中作了明确的说明并表示谢意。学位论文作者签名：签字日期：年月日学位论文版权使用授权书本学位论文作者完全了解河北农业大学河北农业大学有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权河北农业大学河北农业大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。（保密的学位论文在解密后适用本授权书）学位论文作者签名：导师签名：签字日期：年月日签字日期：年月日学位论文作者毕业后去向：工作单位：电话：通讯地址：邮编：中英文混

14、合分词方法及应用研究 1 1 引言 1.1 研究背景及意义伴随着科学技术的迅猛发展,计算机在各个领域也得到了前所未有的广泛应用。已从过去的数据处理、信息处理发展到现在的知识处理和对语言文字的信息处理。自然语言处理作为人工智能的一个分支，在自然语言人机接口、机器翻译、文摘生成等等方面有很多的工作都正在进行 1。自从 20 世纪 80 年代初中文信息处理提出自动分词以来，众多专家和学者在这一领域取得了令人可喜的进展，并且基于中文分词的算法也在随着信息的多元化，复杂化在不断的升级，改进和完善。并且在信息检索，自动归档等领域广泛的应用。但是由于中国经济的飞速发展使得中国与世界的联系更加紧

15、密。在一些前沿领域或是国人刚开始涉足的领域就难免要借鉴和引用一些发达国家的科研成果或创新理论。这样信息形式就难免要使用中外语言混合来表达，特别是中英文混合使用。目前有关中英文混合分词的研究相对较少，还没有形成比较成熟的理论,中英文混合分词的规范,评价体系还没有建立。因此研究中英文混合分词算法及实现具有深远的现实意义。 1.1.1 研究背景汉语自动分词是中文信息处理中的重要环节。汉语自动分词是指将汉字串切分为正确的词串。汉语中词是最小的、能独立活动的、有意义的语言成分 2。目前，许多分词方法已得到了实现，有的还在进一步改进和完善之中。在这一长期的研究和实践过程中，长期制约着汉语自动分

16、词发展的难题是歧义字段的消除和未登录词的识别问题。自然语言处理过程主要包括这样几个基本的步骤：词法分析、句法分析以及语义和语用分析等，如图 1 所示。图 1 自然语言处理的基本过程 Fig1 Natural language processing unit process A词法分析：从输入的字符串序列分解出单词并确定词性。 B句法分析：对输入的单词序列进行分析，根据语法知识库，检查是否为合法的句子结构。 C语义和语用分析：广义上是指对各级语言单位(词、词组、句子、句群)所包含的意义和在语言使用过程中所产生的意义进行分析。对于输入计算机的自然语言字符串序列，计算机通过词法分析、句法分析、语义分析等对语言信息进行预处理，将分析的结果映射为机器内部可以识别与处理的表示形式，并可对该内部表示进行推理，重新转化为自然语言表达的字符串序列输出，最终实现对自然语言的理解。显然，如何进行自然语言自身的语言信息的识别与

展开阅读全文

中英文混合分词方法及应用研究

最新文档