文档详情

中文微博情感评测报告

鲁**
实名认证
店铺
PPT
1.50MB
约24页
文档ID:592469308
中文微博情感评测报告_第1页
1/24

中文微博情感评测报告中文微博情感评测报告浙江工商大学 计算机与信息工程学院报告人:陈威指导老师:施寒潇 提纲§研究背景及意义研究背景及意义§任务预备任务预备§任务分析与实施任务分析与实施§总结总结 背景 在Web2.0大背景下,微博作为用户发言、相互交流的重要途径,具有数量大、更新快的特点,是从中发掘用户观点以及情感倾向的可靠来源针对微博的自然语言处理研究已成为当前一个新的研究热点和前沿课题,而情感分析就是其中一个热点话题 微博情感分析l情感分析,包括观点挖掘、观点分析、主客观分析等情感分析的目的是从文本中挖掘用户表达的观点以及情感倾向l主要技术:(1)情感词典与规则相结合的方法(2)机器学习 意义l过滤不合法网络舆论信息,营造良好的网络环境l监督舆论的走势,辅助社会管理l实现商品个性化推荐l对社会计算的研究有重要的意义 提纲§研究背景及意义研究背景及意义§任务预备任务预备§任务分析与实施任务分析与实施§总结总结 任务清单l任务一:观点句判定l任务二:分析情感倾向 l任务三:提取情感要素 技术准备l分类器:SVM 、 CRFl情感词典扩充:加入网络用语和表情符号 l中文分词技术:海量云分词 提纲§研究背景及意义研究背景及意义§任务预备任务预备§任务分析与实施任务分析与实施§总结总结 任务处理流程构建特征集人工标注训练语料训练集及训练模型生成预测集生成及预测 人工标注l利用本团队自主开发的标注工具标注l严格按照主办方提供的标注规则,从样列文件中选取1219条具有代表性的微博进行标注l标注内容包括:是否为观点句、情感倾向性、情感要素 训练语料§任务一:人工标注的1219条微博§任务二:任务一训练语料中451条为观点句的微博 任务一特征集特征序号特征类型特征内容描述1链接是否含有url链接链接通常以http:开头。

2表情符号是否含有情感表情符号参考网络表情符号词典3情感词是否出现情感词在基本的情感词典基础上,再加入包含情感的网络用语作为情感词典的扩充4情感词个数情感词出现的个数5标点符号是否出现感叹号和问号 ?? 6标点符号是否出现连续的感叹号和问号7反转词是否出现反转词是否情感词前面存在反转词(情感词前3个词之内)8程度副词是否含有程度副词很,特别等9语气词是否含有语气词啊,哪,啦,呀,吧,呢10网络用语是否存在网络用语参考网络用语词典内容11目标值是否为观点句 任务二特征集特征序号特征类型特征内容描述1链接是否含有url链接链接通常以http:开头2正面表情符号正向情感表情符号个数参考网络用语表情词典3负面表情符号负向情感表情符号个数参考网络用语表情词典4正面情感词正向情感词出现个数在基本的情感词典基础上,加入包含情感的网络用语作为情感词典的扩充5负面情感词负向情感词出现个数在基本的情感词典基础上,加入包含情感的网络用语作为情感词典的扩充6反转词是否出现反转词是否情感词前面存在反转词(情感词前3个词之内)7问号是否出现问号8标点符号是否出现问号或者连续的问号9目标值情感正负 训练模型生成网络用语、表情特征提取提取特征训练模型格式转换分词SVM训练人工标注语料海量分词格式分词结果训练集格式转换 预测集生成网络用语、表情特征提取提取特征格式转换分词待预测微博海量分词格式分词结果预测集格式转换预处理 预测集生成及预测细节§任务一分词前预处理 : 过滤类似 “我感到很高兴”这样的主观抒发情感句,并定为非观点句。

§任务二预测集生成:根据任务一的预测结果,从中提取预测为观点句的微博§使用SVM对预测集进行预测 评测结果任务微平均宏平均正确率召回率F值正确率召回率F值一0.6450.9590.7720.6490.9600.770二0.8040.7710.7870.8090.7780.793 任务三流程分词特征提取CRF训练及预测结构化标注 情感要素提取 任务三特征集特征序号特征类型特征内容描述1Token即该词语名称分词所得的某一个词的名称2POSToken的词性该词的词性,可以在分词结果中取得3上下文窗口某Token上下Token的特征选取了上下文窗口为5的词语的Token 、POS特征4目标值结构化标注 用于提取情感要素特征 训练集生成§使用与任务二相同的人工标注集作为训练语料§结构化标注:TP-B 表示情感要素开始词,TP-E 表示情感要素结束词§SO为情感词,BG为背景 情感要素确定u标注为SO,即情感词,作为微博情感倾向u标注为TP-B或TP-E,则可能是情感要素u没有标注TP-的角色,那么就认为该句没有情感要素 总结 本团队在本次比赛中,运用自然语言处理与机器学习的相关知识,结合自身的思路与创新,对任务一(观点句识别)和任务二(情感倾向分析)的评测取得了较为理想的结果,而在任务三的实施方面由于时间和精力方面的原因,尚存一定偏差。

在以后的时间里,我们一定会继续深入研究和努力,进一步改进预测方式,扩充情感词典,完善训练模型,提高在中文微博评测领域的水平 感谢各位专家、学者聆听感谢各位专家、学者聆听本次报告!本次报告! 。

下载提示
相似文档
正为您匹配相似的精品文档