话题型微博语言特及其情感分析策略研究

上传人:ldj****22 文档编号:49020300 上传时间:2018-07-22 格式:PPT 页数:27 大小:642KB
返回 下载 相关 举报
话题型微博语言特及其情感分析策略研究_第1页
第1页 / 共27页
话题型微博语言特及其情感分析策略研究_第2页
第2页 / 共27页
话题型微博语言特及其情感分析策略研究_第3页
第3页 / 共27页
话题型微博语言特及其情感分析策略研究_第4页
第4页 / 共27页
话题型微博语言特及其情感分析策略研究_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《话题型微博语言特及其情感分析策略研究》由会员分享,可在线阅读,更多相关《话题型微博语言特及其情感分析策略研究(27页珍藏版)》请在金锄头文库上搜索。

1、话题型微博语言特点 及其情感分析策略研究中国传媒大学 国家语言资源监测与研究中心有声媒体语言分中心侯敏 滕永林 陈毓麒 李雪燕 郑双美 周红照 侯明午http:/论文框架v1.简介v2.话题型微博语言特点v3.话题型微博情感分析采取的策略v4.实验和分析v5.启示和思考http:/论文框架v1.简介v2.话题型微博语言特点v3.话题型微博情感分析采取的策略v4.实验和分析v5.启示和思考http:/v简介v 话题型微博语言特点v 话题型微博情感分析采取的策略v 实验和分析v 启示和思考http:/1.简简介本文在深入分析了话题型微博的语言特点的基 础上,提出了基于短语情感词典及语义规则 的 观

2、点句识别及评价对象提取的策略。实验和评 测结果证明,这些策略和方法取得了较好的效 果。http:/v 简介v话题型微博语言特点v 话题型微博情感分析采取的策略v 实验和分析v 启示和思考http:/2.话题话题 型微博语语言特点2.1 句子简简短,单单句多微博有字数限制,因而往往短小。话题型微博又因为有 一个明确的话题,话题型微博中句子相对简短,单 句居多。文体形式文本数汉字数句子数平均句长(字)语言舆情评论文400356511936638.06话题型微博2068726341620.11http:/2.话题话题 型微博语语言特点2.2 观观点负负面倾倾向多话题型微博的形成是基于一定的社会话题和

3、社会事件, 而当今社会引起关注的话题负 面性较多,这就使得话 题型微博在表达观点时,以否定倾向居多。文体形式句子数观点句数负面倾向句子数负面倾向句比例 (%)语言舆情评论文93666190308349.81话题型微博34162207176680.02http:/2.话题话题 型微博语语言特点2.3 表达情感强烈,理性评评价淡化网络环境的特点使得用户不愿也不易使用逻辑性强的 理性话语表达观点,因而理性评价淡化,脏话、粗 话等表现力强的不雅语汇大量出现,这也成为话 题型微博观点句在表达情感和态度时一种较广泛的表达 方式。http:/2.话题话题 型微博语语言特点2.4 口语语色彩浓浓重,情感因子颗

4、颗粒度大微博具有浓重的口语色彩,体现句子观点的情感因子 颗粒度加大,往往不再是词,而是短语。(1)#90后暴打老人#什么玩意了。 (2)#官员财产公示#有个鬼用,公示出来的也要有人信吖 ?http:/2.话题话题 型微博语语言特点2.5 观观点表达的隐隐晦、非直接性在话题型微博中,除了用一些很“给力”的词语明确表 达观点外,人们还会采用一种隐晦的、非直接的方 式,以言外之意表达观点。(1)#食用油涨价#我可以说脏话吗? (2)#三亚春节宰客#当地的政府部门这么做的用意是什么 ?掩耳盗铃?越抹越黑?还是让游客永远不去三亚?应 该去测测智商了!http:/2.话题话题 型微博语语言特点2.6 评价

5、对象省略微博用户往往可以直接对整个话题或话题的某一部分 进行评价和表达态度,所以,话题型微博的评价对 象常在文本中省略。(1)#菲军舰恶意撞击#抗议! (2)#菲军舰恶意撞击#真可恶 (3)#菲军舰恶意撞击#欺人太甚 (4)#菲军舰恶意撞击#可悲啊http:/2.话题话题 型微博语语言特点2.7 语语言不够规够规 范含有大量非规范性的语言文字以及其它噪音, 也是话题型微博语言的一个特点。(1)#疯狂的大葱#找点空闲,找点时间!带着钱包常去 http:/ (2)#假和尚搂女子#真TM不要Face。http:/v 简介v 话题型微博语言特点v话题型微博情感分析采取的 策略v 实验和分析v 启示和思

6、考http:/3. 话题话题 型微博情感分析采取的策略整体思路:情感分析,目前主要有两种基本方法。一种是基于语义 的词典及规则方法,一种是基于标注语料的机器学习方 法。我们主要采取的是基于语义的词典加规则的方法,针 对话题 型微博,我们主要采用了加大情感因子颗粒度, 构建基于短语的情感词典、通过短语规则确定句 子极性、重点研究否定形式、建立基于话题的 OBJ表单等策略。http:/3. 话题话题 型微博情感分析采取的策略3.1 构建基于短语语的情感词词典话题型微博情感表达颗粒度大,因而仅仅依靠传统 的情感词典,依靠句子中是否有情感词来进行观点句的 判断,会造成很多错判,因此我们构建了一部基于短

7、语 的情感词典。短语情感词典将明确表达观点的情感短语甚至短句都 收录其中。不得好死、不咋的、扯犊子、就好了、瞎折腾个屁、 不是找抽吗、什么玩意儿一些明确表达观点的口语词、网络用语和脏话也必须 收录到情感词典中得瑟、狗逼、操蛋、犯贱、傻B、欠揍、找死http:/3. 话题话题 型微博情感分析采取的策略3.2 通过过短语规则语规则 确定观观点句及其极性我们建立了短语规则库 ,试图解决情感短语词典不能 处理的那部分句子是否观点句以及句子的极性问题,主 要是长距离搭配形成的情感短语或者是有歧义的短语搭 配。是/v #!,|,|;/% 的/u 责任/n = #4:-0.5(1)#六六叫板小三#这种事是3

8、方的责任;不能单独怪哪一方;(2)#90后暴打老人#我们指责的不应该是90后,人之初性本善, 这是国家、学校、家长教育的责任。http:/3. 话题话题 型微博情感分析采取的策略3.3 建立否定形式规则库规则库 使用否定形式是话题型微博语言表达否定态度的 一种重要手段,因此有必要通过建立否定形式 规则库 来确定短语和句子的倾向。 所谓/b 的/u */n&po = -(N3*0.4)#官员财产公示# 所谓的民主,就是你是民,我是主。http:/3. 话题话题 型微博情感分析采取的策略3.4 建立基于话题话题 的OBJ表单单话题型微博语言话题集中,评价对象往往省略,针对 这种情况,我们在评价对象

9、提取模块中建立了一个基于 话题的OBJ表单。(1)#六六叫板小三#无聊 (2)#六六叫板小三#都贱货! (3)#六六叫板小三#维护自己的爱情,做的对,给力 (4)#六六叫板小三#破坏别人家庭,变态。http:/v 简介v 话题型微博语言特点v 话题型微博情感分析采取的策略v实验和分析v 启示和思考http:/4.实验实验 和分析运用上述策略,我们构建了一个基于情感短 语词典以及语义规则 的情感分析系统CUCsas ,并以中国计算机学会(CCF)2012年主办的 第一届中文微博情感分析评测提供的评测语 料 为对象,对20篇话题型微博语料进行了观点句 识别、观点句极性识别和观点句评价对象提取 的实

10、验。http:/4.实验实验 和分析实验 (评测)项目微平均宏平均正确率召回率F值正确率召回率F值观点句识别0.7560.8120.7830.7570.7970.773观点句极性识别0.8440.6850.7560.8420.6720.745评价对象识别(严格)0.3030.2750.2880.3050.2650.278评价对象识别(宽松)0.3870.3560.3710.3910.3440.3594.1 实验效果http:/4.实验实验 和分析4.2 存在的问题问题 (1)在观点句及其极性的识别上,由于规则方法本身的 限制,使得我们建立的情感词典和规则库 很难覆盖全部语 言现象和微博全部的语

11、料。#彭宇承认撞了南京老太#这事儿还有人信啊.(2)对微博语料进行预处理时,由于分词错误 使得一些 词不能与情感词典中的词条匹配,因而造成了观点句识别 上的流失#皮鞋果冻#以前敢吃,现在不敢吃了,想想都好恶心http:/4.实验实验 和分析4.2 存在的问题问题 (3)微博语言表达上的隐晦、非直接性,使得系统在处理 深层语用时也会出错#皮鞋果冻#JS有点良心吧(4)由于微博语料的非规范性,错别字和标点符号的误用 现象比较普遍,这也在很大程度上影响了规则的匹配,造 成一些观点句评价对象的提取错误。#彭宇承认撞了南京老太#-老百姓太不容易了,希 望我们的党能领导人民好好走下去。http:/v 简介v 话题型微博语言特点v 话题型微博情感分析采取的策略v 实验和分析v启示和思考http:/5.启示和思考5.1 规则的方法不是完全无用的5.2 语言计算要加强对语言的研究5.3 语言计算要注重语域

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号