毕业设计(论文)-基于双向匹配的中文分词算法的研究与实现

上传人:aa****6 文档编号:38335605 上传时间:2018-04-30 格式:DOC 页数:31 大小:227.50KB
返回 下载 相关 举报
毕业设计(论文)-基于双向匹配的中文分词算法的研究与实现_第1页
第1页 / 共31页
毕业设计(论文)-基于双向匹配的中文分词算法的研究与实现_第2页
第2页 / 共31页
毕业设计(论文)-基于双向匹配的中文分词算法的研究与实现_第3页
第3页 / 共31页
毕业设计(论文)-基于双向匹配的中文分词算法的研究与实现_第4页
第4页 / 共31页
毕业设计(论文)-基于双向匹配的中文分词算法的研究与实现_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《毕业设计(论文)-基于双向匹配的中文分词算法的研究与实现》由会员分享,可在线阅读,更多相关《毕业设计(论文)-基于双向匹配的中文分词算法的研究与实现(31页珍藏版)》请在金锄头文库上搜索。

1、 石家庄经济学院本科生毕业论文 摘 要中文分词是信息提取、信息检索、机器翻译、文本分类、自动文摘、语音识别、文本语 音转换、自然语言理解等中文信息处理领域的基础,虽然研究了很多年,但是中文分词依然 是中文信息处理的瓶颈之一。 本文首先将已有的分词算法进行了分析、总结和归纳,讨论了中文识别一直难以很好解 决的两大问题:歧义识别和未登录词。接着在基于词典的基础上将最大正向匹配和最大逆向 匹配结合起来,得到了双向匹配分词算法,并且使用了自己提出的字典机制(子字典机制) 实现了一个基于双向匹配算法的中文分词系统。关键词:中文分词;双向匹配;子字典机制ABSTRACTChinese word segme

2、ntation is the basis of information extraction, information retrieval, machine translation, text categorization, automatic summarization, speech recognition, text-speech, natural language understanding and other Chinese information processing , although Chinese word segmentation has been studied for

3、 many years, the Chinese word is one of the Bottleneck of Chinese information processing .Firstly, this paper is to present the segmentation algorithm which has been analyzed, summarized, discussed the implementation of the Chinese has not been identified two major problems: ambiguous word recogniti

4、on and not landing. Then, the basis of the dictionary will be based on maximum matching and maximum reverse positive match together to form a two-way matching word segmentation algorithm, and uses its own dictionary mechanism proposed by (a dictionary mechanism.) to achieve a two-way matching algori

5、thm based on Chinese word segmentation system.Key words: Chinese word; two-way match; Sub-dictionary mechanism石家庄经济学院本科生毕业论文 目 录摘要.ABSTRACT.1 引言.1 1.1 研究背景、目的及意义.11.2 中文分词的现状.11.3 本文的主要创新点.31.4 课题任务和论文结构.32 中文分词简介.42.1 中文分词问题描述.42.2 中文分词难点分析.42.3 主要的分词算法.63 双向匹配算法和子字典机制.83.1 双向匹配算法.83.2 基于词典的分词算法的词典

6、机制.133.3 小结.164 中文分词系统的设计与实现.17 4.1 系统设计与原则.174.2 中文分词系统的设计.174.3 中文分词结果的实现.195 测试.245.1 测试环境和测试方案.245.2 中文分词系统评价标准.245.3 实验结果和结论.24结论.27石家庄经济学院本科生毕业论文 致谢.28参考文献.29石家庄经济学院本科生毕业论文 - 1 -基于双向匹配的中文分词算法的研究与实现1 引言1.1 研究背景、目的及意义研究背景、目的及意义随着信息时代的到来,可供人们查阅和检索的中文信息越来越多,如何在浩如烟海的中 文信息世界里找到自己需要的资料成为一个越来越重要需要研究的课

7、题。在当今时代,要处 理迅猛增长的信息,手工处理已经变得不太现实。因此出现了自动化出来方法,自动化处理 方法帮助人们检索、管理信息,来解决现在社会信息丰富而知识贫乏的现状。目前已经出现 了很多自动化的工具诸如自动摘要、自动文件检索等语言处理技术,在这些技术内的一个核 心关键是主题词,对于主题词的提取有助于简化此类工作,而如何找到主题词是需要中文分 词技术的。此外中文分词也是搜索引擎,翻译等技术的基础。 中文分词,顾名思义,就是借助计算机自动给中文断句,使其能够正确表达所要表达的 意思。中文不同于西文,没有空格这个分隔符,同时在中文中充满了大量的同义词,相近词, 如何给中文断句是个非常复杂的问题,即使是手工操作也会出现问题。中文分词是信息提取、 信息检索、机器翻译、文本分类、自动文摘、语音识别、文本语音转换、自然语言理解等中 文信息处理领域的基础研究课题1。对于中文分词的研究对于这些方面的发展有着至关

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号