基于情感字典及机器学习相结合文本情感分类

上传人:第*** 文档编号:69197594 上传时间:2019-01-12 格式:PDF 页数:47 大小:783.88KB
返回 下载 相关 举报
基于情感字典及机器学习相结合文本情感分类_第1页
第1页 / 共47页
基于情感字典及机器学习相结合文本情感分类_第2页
第2页 / 共47页
基于情感字典及机器学习相结合文本情感分类_第3页
第3页 / 共47页
基于情感字典及机器学习相结合文本情感分类_第4页
第4页 / 共47页
基于情感字典及机器学习相结合文本情感分类_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《基于情感字典及机器学习相结合文本情感分类》由会员分享,可在线阅读,更多相关《基于情感字典及机器学习相结合文本情感分类(47页珍藏版)》请在金锄头文库上搜索。

1、 硕士学位论文 基于情感字典与机器学习相结合的 文本情感分类 Sentiment Classification by Combining Lexicon-based and Machine Learning Methods 王振浩 哈尔滨工业大学 2010 年 12 月 国内图书分类号:TP391.3 国际图书分类号:621.3 工学硕士学位论文工学硕士学位论文 基于情感字典与机器学习相结合的 文本情感分类 硕 士 研 究 生 : 王振浩 导 师: 丁宇新副教授 申 请 学 位: 工学硕士 学 科 、 专 业: 计算机科学与技术 所 在 单 位: 深圳研究生院 答 辩 日 期: 2010 年

2、12 月 授予学位单位: 哈尔滨工业大学 Classified Index: TP391.3 U.D.C: 621.3 Dissertation for the Master Degree of Engineering Sentiment Classification by Combining Lexicon-based and Machine Learning Methods Candidate: Wang Zhenhao Supervisor: Prof. Ding Yuxin Academic Degree Applied for: Master of Engineering Speci

3、alty: Computer Science Affiliation: Shenzhen Graduate School Date of Defence: December, 2010 Degree-Conferring-Institution: Harbin Institute of Technology 哈尔滨工业大学工学硕士学位论文 - I - 摘 要 近年来,随着电子商务,个人博客,社交网站和微博的蓬勃发展,互联 网进入了一个崭新的时代,用户生成文本(user generated content)的产生, 标志着人们已经不再是单纯的受众,而是成为了互联网的一部分。广大用户 有了发表自己

4、意见的空间,带有主观色彩的言论或评价随之铺天盖地而来。 这些海量的非结构化的信息显然包含了大量的信息。 企业需要获得用户对产 品的意见,政府需要知道群众对某项政策的反映。而用户在消费前想获得更 多的建议。如何处理这些信息从而获得我们想要的知识,是当前学者们关注 的焦点。情感分类是随之而兴起的一个研究领域,它从文本的情感表达入手 对文本进行分类,将其分过正面(positive)和负面(negative) 。这样我们 可以清楚的知道,文本信息所表达的态度是赞成还是反对,这种产品值得推 荐还是一文不值。 在这样一个背景下,本文对文本情感分类问题进行了下述研究工作: 首先,本文针对情感分类的特点提出了

5、一种自监督的分类模型,将情感 分类中常用的基于字典方法与基于机器学习方法相结合, 克服了基于字典方 法的完备性问题和基于机器学习需要庞大人工标注训练集的问题; 其次本文 尝试将信息检索中常用的TFIDF模型引入到情感分类中,对其进行调整以适 应情感分类问题。最后,本文通过搭建分类模型工程,在情感分类常用数据 集上实验证明, 本文提出的分类模型可以在不需要庞大人工标注的训练集的 情况下获得较高的分类精确率。TFIDF的改进加权模型比布尔加权模型提供 了更多的信息,因而也取得了比布尔加权模型更优的分类结果。 关键词:情感分类;观点挖掘;文本分类;支持向量机;TFIDF 哈尔滨工业大学工学硕士学位论

6、文 - II - Abstract In recent years, with the development of e-commerce, SNS and micro-blog, the internet entered a new era. With the production of the user generated content, which marks that, the people is no longer simply an audience, but has become part of the internet. For what, they have the spa

7、ce to express their views. There are so many views now. These vast amounts of unstructured information is clearly contains a great deal of information. Companies need to obtain the views of users of the products. The government needs to know the people reflect on a policy. How to deal with the infor

8、mation to gain the knowledge what we want is the current focus of attention of scholars. Opinion mining and sentiment classification is a new area focus on deal with this problem. It separates the views to two parts, which are positive and negative, according to the emotion of the writer. With the h

9、elp, we will know that the emotion of the audience expressed by the text for or against. And a product is recommended or worthless. In this dissertation,the problems of text sentiment classification on document level are investigatedThe main contributions of this dissertation are summarized as follo

10、ws: Firstly, we propose a new self-supervised model for sentiment classification. In this model, we combined lexicon-based method with corpus-based method to address the major drawbacks of only using one of these two methods. The former does not adept well to different domains, while the latter one

11、requires much effort of human annotation of documents. Our self-supervised model can overcome these drawbacks. Secondly, we improve the TFIDF model and used it into the SVM classifier. The result proved that this method is move efficient. Keywords Sentiment classification, Opinion mining, Text class

12、ification, SVM, Delta TFIDF 哈尔滨工业大学工学硕士学位论文 - III - 目 录 摘 要 . I Abstract II 目 录 III 第 1 章 绪论 1 1.1 课题背景 1 1.2 课题研究的目的及意义 1 1.3 国内外相关技术发展现状 2 1.3.1 文本情感分类的主要研究内容 . 2 1.3.2 文本情感分类的应用现状 . 4 1.3.3 本文研究重点以及需要解决的问题 5 1.4 本文主要研究内容与组织 6 第 2 章 文本情感分类基础知识 7 2.1 引言 7 2.2 相关研究工作 . 7 2.2.1 传统文本分类的研究概览 . 7 2.2.2

13、基于情感字典的文本情感分类的相关研究 . 9 2.2.3 基于机器学习的文本情感分类的相关研究 . 9 2.3 语言特征抽取 . 11 2.3.1 基于 N-Gram 模板的文本特征表示. 11 2.3.2 语言特征加权和选择 12 2.4 情感分类模型 . 13 2.4.1 朴素贝叶斯模型 13 2.4.2 支持向量机模型 13 2.5 本章小结 14 第 3 章 文本情感分类的自监督分类模型 . 15 3.1 引言 15 3.2 情感分类方法改进简介 15 3.2.1 基于字典与基于机器学习方法比较 15 3.2.2 情感字典与机器学习相结合 . 17 哈尔滨工业大学工学硕士学位论文 -

14、IV - 3.3 自监督模型介绍 . 18 3.3.1 第一阶段基于情感字典分类 . 19 3.3.2 第二阶段基于机器学习分类 . 20 3.4 DELTA TFIDF 简介 21 3.4.1 经典 TFIDF 介绍 . 21 3.4.2 Delta TFIDF 特征加权方式 . 21 3.5 本章小结 24 第 4 章 情感分类器的设计与实现 . 25 4.1 引言 25 4.2 系统总体设计 . 25 4.2.1 基于情感字典分类流程 . 26 4.2.2 基于 SVM 学习器的分类流程 . 27 4.3 本章小结 28 第 5 章 实验结果及分析 29 5.1 引言 29 5.2 实验

15、环境 29 5.2.1 文本数据集 . 29 5.2.2 情感字典和否定词字典 . 30 5.3 实验结果一览 . 30 5.3.1 基于 SVM 分类器的分类结果 . 30 5.3.2 自监督分类模型实验结果 . 31 5.4 实验结果分析 . 31 5.5 本章小结 33 结 论 34 参考文献 35 哈尔滨工业大学硕士学位论文原创性声明 39 哈尔滨工业大学硕士学位论文使用授权书 39 致 谢 40 哈尔滨工业大学工学硕士学位论文 - 1 - 第 1 章 绪论 1.1 课题背景 随近年来,随着电子商务,个人博客、社交网站和微博的蓬勃发展,以 及用户生成文本(user generated

16、content)的产生,广大用户有了发表自己意 见的空间,带有主观色彩的言论或评价随之铺天盖地而来。如顾客对某个产 品、某种服务的评价,对某个电影的评论,博客上发表的对某件事的个人见 地等等。生产厂家需要知道消费者对某种产品的意见和批评,潜在顾客想要 知道老顾客使用这种产品后的情形, 然而成千上万的评论却让人感到无从下 手。另外,消费者中有些人只想获得某个产品或服务的负面评论,这样可以 了解这个产品或服务的缺点, 所以他们不愿意花大量的时间去阅读正面评论; 另一方面,对某一部影片感兴趣的消费者只想获得这部影片的正面评论,这 样可以了解这部影片的看点。如何利用这些丰富的主观性文本资源,对各种 评论的主观内容进行分析与处理,以满足不同阅读者的需求,成为人们日益 研究的焦点。而对这种非结构化的文本信息的分类与总结,与一般针对结构 化信息的数据挖掘有着很大的不同, 一些现成的数据挖掘算法也不能直接应 用其中,而且还需要用到自然语言处理的知识,因而非常具有挑战性。在这 样的背影下,兴起了观点挖掘与情感分类领域的研究。 观点挖掘和情感分类是随之而兴起的一个研究领

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 规章制度

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号