基于CRFs_的中文分词和短文本分类技术

上传人:206****923 文档编号:47193270 上传时间:2018-06-30 格式:PDF 页数:69 大小:1.40MB
返回 下载 相关 举报
基于CRFs_的中文分词和短文本分类技术_第1页
第1页 / 共69页
基于CRFs_的中文分词和短文本分类技术_第2页
第2页 / 共69页
基于CRFs_的中文分词和短文本分类技术_第3页
第3页 / 共69页
基于CRFs_的中文分词和短文本分类技术_第4页
第4页 / 共69页
基于CRFs_的中文分词和短文本分类技术_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《基于CRFs_的中文分词和短文本分类技术》由会员分享,可在线阅读,更多相关《基于CRFs_的中文分词和短文本分类技术(69页珍藏版)》请在金锄头文库上搜索。

1、基于 CRFs 的中文分词 和短文本分类技术 Chinese Word Segmentation and Short Text Classification Techniques Based on CRFs (申请清华大学工学硕士学位论文) 培 养 单 位 : 计算机科学与技术系 学 科 : 计算机科学与技术研 究 生 : 滕 少 华 指 导 教 师 : 孙 茂 松 教 授 二九年五月 摘 要 I 摘 要 摘 要 中文自动分词和短文本分类是自然语言处理中的基础任务,本文将介绍关于这两个领域的若干基于条件随机场(CRFs)的算法以及在此基础上的创新。 本文的工作主要包括两部分:第一部分,我们借用

2、了文本分类领域的特征选择算法对中文分词中的特征进行分析。分析结果表明,特征选择算法在中文分词的任务中也是适用的。在中文分词领域,基于字标注的方法得到广泛应用。通过字标注系统,中文分词任务被转换为序列标注任务,许多成熟的机器学习算法得以应用。评测结果表明,在众多的机器学习算法中,基于 CRFs 的分词器可以达到 state-of-the-art 的分词效果。 CRFs 分词器对于给出的每一个切分, 都可以提供置信度。在本文中,我们深入调研了 CRFs 提供的置信度,在此基础上,提供了一种基于置信度的后处理中文分词算法。三个不同数据集上的实验结果证明,我们的算法是有效的。另一方面,我们对未登录词(

3、OOV)在上下文中的分布进行观察,提出了一种基于篇章内部信息和 CRFs 置信度的 OOV 识别方法,可以进一步提高中文分词的准确度。 第二部分,我们借用了中文文本分类中的字标注算法来解决短文本分类问题。通过标注算法,可以将短文本分类问题转化为序列标注问题,这样 CRFs 就可以用于短文本分类任务中。实验结果表明,基于 CRFs 的短文本分类器可以达到更高的分类精度。 关键词:中文分词 短文本分类 条件随机场 特征选择 置信度 未登录词Abstract II Abstract Chinese word segmentation (CWS) and short text classificati

4、on (STC) are both basic tasks in natural language process (NLP). In this paper, some novel methods based on CRFs are introduced for these two NLP tasks. First, in this paper, we borrow the idea of feature selection from text classification to evaluate each features contribution in CWS task. Our anal

5、ysis demonstrates that feature selection methods are useful in CWS task. In CWS task, the most widely used methods are character-based tagging method, which reformulates CWS task to a sequence tagging task. It is demonstrated by previous work that CRFs tagger can achieve state-of-the-art performance

6、. Given a word segmentation proposed by the CRFs, we can compute a confidence in each segment. In this work, we investigate the confidence generated by CRFs and propose a novel post-process method to improve the CWS performance. We conduct experiments on three corpora which show our CRFs confidence

7、approach achieves better performance. On the other hand, we analyze OOVs distributions in context. Based on our analysis, we propose a method to use in local information to recognize OOVs. Second, we borrow the character-tagging method in CWS task to solve STC problem. After converting the classific

8、ation problem to a sequence labeling problem, CRFs can be used in the STC task. Experiment results show that CRFs based classifier can produce a promising performance in STC task. Keywords: Chinese Word Segmentation Short Text Classification Conditional Random Fields Feature Selection Confidence OOV

9、目 录 III 目目 录录 摘 要 . I Abstract . II 目 录 . III 第 1 章 引言 . 1 1.1 课题背景及意义 . 1 1.1.1 中文分词问题 . 2 1.1.2 短文本分类问题 . 3 1.1.3 研究目标 . 4 1.2 中文自动分词研究现状 . 4 1.2.1 数据集 . 5 1.2.2 转化为序列标注问题 . 5 1.2.3 条件随机场算法 . 6 1.2.4 性能评价 . 8 1.3 短文本分类研究现状 . 8 1.3.1 数据预处理和常用数据集 . 9 1.3.2 文本向量化处理 . 10 1.3.3 分类器选择 . 10 1.3.4 性能评价 . 11 1.3.5 短文本分类任务的特殊性 . 11 1.4 本文的研究重点和内容安排 . 12 第 2 章 中文分词中的特征选择问题 . 13 2.1 字标注系统 .

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号