基于监督学习的微博情感分析

资源描述

题目：基于监督学习的微博情感分析摘要：随着Web2.0的发展，微博渐渐成为普通大众生活中必不可少的一部分，人们利用微博进行网上交流和网上评论。不断更新的微博具有巨大的信息量，而且微博中所表达的信息都是用户的真实情感和感受，微博信息中隐藏着巨大的价值。但是目前对英文微博情感分析较多，中文微博情感分析尚处于起步阶段。本文采用监督学习的方法进行微博情感分析研究，比较了七种分类器的实验效果。首先，利用结巴分词技术对微博信息进行分词预处理；然后，选取五类特征集：基于四个词典的特征集、基于N-POS的特征集、基于模式的特征集、基于特殊字符的特征集和基于句子长度的特征；最后使用七种分类器分别训练模型，做比较性实验。关键词：微博情感分析；情感分析; 多特征; 监督学习 Abstract: With the development of the Web2.0, micro-blogs gradually become a common essential part of the public life. People communicate with each other and make comments on the Internet by micro-blogs.Micro-blogs are updating constantly everyday and have huge information. Apart form it,the reviews in the micro-blogs are true feelings of the users, thus there are huge hidden values in them. However, the existing research is more about foreign micro-blogs, but Chinese micro-blog sentiment analysis is still in its infancy. This paper uses the method based on supervised learning to analyze micro-blog sentiment, comparing the experimental results of seven kinds of classifiers. Firstly, it uses jieba technique to preprocess the micro-blog texts; then it selects five kinds of feature sets: sentiment lexicons based feature sets, N-POS (part of speech combination) based feature sets, patterns based feature sets，special symbols based feature sets and sentence length based feature set; finally, it employees seven classifiers to train the model separately and compares their experimental results. Key words: Sentiment analysis of micro-blog; Sentiment analysis; Multi-feature; Supervised learning 目录 1 绪论 1 1.1 研究背景 1 1.2 研究的目的与意义 1 1.3 国内外研究现状 2 1.3.1 文本情感分析研究现状 2 1.3.2 微博情感分析研究现状 3 1.4 论文的主要研究内容 4 1.5 论文的组织结构 5 2 相关介绍与理论概述 6 2.1微博相关概述 6 2.1.1微博的定义与发展 6 2.1.2 中文微博中的符号 6 2.1.3中文微博研究中的困难 6 2.2文本预处理技术 7 2.3 特征选择 7 2.3.1常用的特征选择算法 7 2.3.2特征选择方法优缺点比较 9 2.3.3微博的特征选择方法 9 2.4本章小结 9 3 基于监督学习的微博情感分析 10 3.1 监督学习相关介绍 10 3.2 基于监督学习的整体框架 10 3.2.1 情感分类 10 3.2.2 监督学习过程 10 3.3 特征产生 11 3.3.1 词典特征 11 3.3.2 N-POS特征 13 3.3.3 词性与中文组合特征 13 3.3.4 特殊字符特征 14 3.3.5 句子长度特征 14 3.4 分类器 15 3.4.1 支持向量机 15 3.4.2 朴素贝叶斯 15 3.4.3 K近邻 15 3.4.4 决策树 16 3.4.5 随机森林 16 3.5 本章小结 16 4 基于监督学习的微博情感分析的关键代码实现 17 4.1 结巴分词 17 4.2 特征提取 18 1 4.2.1 导入特征库 18 4.2.2 解析xml文件并写入csv 20 4.3 建模分类数据 23 4.3.1 训练模型 23 4.3.2 利用已有的模型进行分类 23 4.5 本章小结 24 5 实验与分析 25 5.1 实验数据集 25 5.2 实验性能评估指标 25 5.3 实验设计与结果分析 26 5.3.1 观点句识别 26 5.3.2 情感极性分析 27 5.4 本章小结 29 6 总结与展望 30 6.1 总结 30 6.2 展望 30 毕业设计体会 31 致谢 32 参考文献 33 英文翻译资料 34 1 1 绪论 1.1 研究背景 Web2.0时代改变了我们传统的交流方式，互联网以其丰富的内容，快捷的交互方式，给我们呈现了一个前所未有的崭新的世界。在过去，互联网的Web1.0更多的应用，是一个以数据为中心的网络，通常只以一个静态的方式呈现在网页和在线内容网站，工作人员大多是贡献的角色，有限的交互活动限制了广大用户的加入。Web2.0是以用户为出发点，人人都是网站的贡献者，用户可以随时随地的通过网络参与网上评论，发布网络信息，表达自己的观点，享受便利的互联网服务。参与网上评论的信息都是网上用户自己的所发所感，更加贴近生活，在其他网名用户之间也能产生共鸣，所以能够更多的吸引用户参与到这些交互中来。快速的信息交流极大地改变了互联网的形式，使用户平等的获得信息的机会，而不再受到资源的限制，这给广大网名的生活和工作带来了极大地便利。伴随着互联网的快速成长，互联网用户从以往的在静态网页上传递信息的角色变成了彼此信息交互的角色，因此，这也使得很多社交网络进入了迅速发展的黄金时期，比如美国的Facebook和Twitter。现在很多用户通过在Web2.0网站上以多样化的形式发表对某一事物的看法，这些内容丰富多彩同时也是每个用户的真实情感。近年来，衍生出微博（micro-blog）这一概念，其中最具有代表性的是美国的推特（Twitter）和中国的微博（Weibo）。从2006年到目前为止，微博的用户群在如此短的时间内迅速增加，微博目前已经成为一个交互频率非常高的信息交互平台。根据近期对微博用户数量的大概统计，中国有近3亿用户，是一个数量非常巨大的用户群体，这个群体所隐藏的巨大财富也是无法估计的。微博从2006刚刚起步到现在晋升为我们普通网民必不可少的应用之一，为我们展现了新世界信息交互的窗口。 1.2 研究的目的与意义微博的篇章结构不规则，用户必须在140个字符内表达自己当时的所发所感，微博虽微，但是传播信息的功能却不可小视。比如手机微博，每天24小时都有可能有信息产生。根据新浪微博官方统计表明，每个用户平均每三天就要发一条微博。更加值得关注的是，微博已经成为继邮箱、QQ之后又一重要的联系工具。最开始使用微博的是学生、计算机工作人员、城市里的高级白领等知识分子，到现在，最普通的大众也开始使用微博，甚至各类企业机构都开始使用微博作为推销宣传的工具之一。无论是微博的发布数目，还是微博的使用频率，都是呈现出上升的趋势，开始向大众化迈进。随着微博用户数量疯狂的增长，潜藏在微博领域的商机也渐渐被挖掘出来，如信息发布与获取、社会事务讨论、微博问政、商业营销……微博已经全面渗入社会各个领域。越来越多的网名用户选择在微博这个平台上记录自己随时发生在身边的事情或者评论网上其他人的微博进行信息交互，因为微博这个平台几乎无任何成本，无需任何知识储备，并且它的操作简洁易懂，简简单就可以关注对政治事件、娱乐人物、商品等的动态。微博中蕴藏的巨大信息量无论是社会机构、政府，还是其他网上用户都具有极大地参考价值。比如：对商家而言，可以通过用户反馈改进自己的产品；对于消费者而言，可以参考其他用户使用过该产品的反馈确定是否购买这件商品。微博中含有的信息量巨大，因为话题来自不同层次群体的用户或是不同机构的信息，所以微博话题也是千奇百怪、丰富多彩，除此之外，信息内容多为口语化，且不规整，尽管如此，微博中还是隐藏了巨大的商业价值。微博上的互动信息都是用户切身的有感而发，与自身每日的生活息息相关，所表达的都是真实情感，所以如果获得这些微博信息，就可以对这些信息做情感分析。通过对情感分析的研究：商家可以利用用户对商品的反馈做进一步改进；名人可以通过微博平台做个人宣传，增加自己的知名度，通过分析网民对自己的评价可以更好地定位自己。对于海量的数据，仅依靠人工浏览数据来获取有用的信息是一件十分困难的事。尽管英文微博情感分析已经有一段历史，但是中文微博情感分析研究还处于起步阶段。本文以CFF公开发布的腾讯微博数据集为研究对象，进行以下两个任务：观点句识别和情感极性分析。 1.3 国内外研究现状情感分析有多个子任务，任务一：观点句识别，即判断句是否是观点句，任务二：情感极性判断，即确定为观点句的情况下，判断该句子的情感极性，正向情感和负向情感。 Web2.0的快速发展激发了大量社交网络平台的诞生，由网民用户发表的情感信息和交互信息成指数级增长。这些信息体现了用户的心理情感和观点倾向，比如高兴、快乐、思乡、仇恨、喜欢、厌恶、顺从、忤逆等等。近几年，随着微博的迅速发展，文本情感分析渐渐成为NLP领域不可缺少的一个分支，文本情感分析的研究更加丰富和发展了自然语言处理。文本情感分析的热潮不仅在国内如此，国际上也出现了很多相关的高质量的文章供我们参考研究。下面首先介绍文本情感分析所使用的相关技术和方法，主要为情感词典和机器学习的方法，然后介绍目前中文微博领域的发展情况。 1.3.1 文本情感分析研究现状文本信息根据大小按从大到小分可以分为：篇章、句子和短语。因为微博信息是一条条句子信息，所以本文的研究对象是句子级别的文本信息。近几年，应用在情感分析领域分类效果比较好的有两种方法：情感词典和机器学习。情感词典主要是通过构建词典来进行字符串匹配来产生相应的特征，机器学习主要是通过特征提取和训练模型来进行情感分类的预测。（1）基于情感词典的文本信息分类基于情感词典的方法是：用已有的人工标注的情感词典去查找一个文本中包含正向情感词汇和负向情感个数，文本的情感极性由正向情感词汇和负向情感词汇数量的差值决定。以上是基于情感词典法最基本的概念。外文文本

展开阅读全文

温馨提示：

金锄头文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。