《关键词发现报告》ppt课件

上传人:tian****1990 文档编号:74780572 上传时间:2019-01-29 格式:PPT 页数:9 大小:1.36MB
返回 下载 相关 举报
《关键词发现报告》ppt课件_第1页
第1页 / 共9页
《关键词发现报告》ppt课件_第2页
第2页 / 共9页
《关键词发现报告》ppt课件_第3页
第3页 / 共9页
《关键词发现报告》ppt课件_第4页
第4页 / 共9页
《关键词发现报告》ppt课件_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《《关键词发现报告》ppt课件》由会员分享,可在线阅读,更多相关《《关键词发现报告》ppt课件(9页珍藏版)》请在金锄头文库上搜索。

1、关键词发现方法 初步方案,欢迎交流 QQ:2091395524,分析总结,初步方案设计,背景与目标,算法基本原理,背景与目标,在舆情分析中,关键词发现是一个基础性的文本技术,为文本分类、聚类、主题发现、情感分析提供有益的帮助。 结合益普索的项目,以用户对搜狐汽车的评价数据(评价的标题数据)为数据集,用来进行关键词发现方法。具体为用户对汽车外观、动力、空间等的三类(满意、一般和不满意)评价数据。 这样,具体任务变为如下:从用户的评价中抽取出有价值的关键词,主要包括两个方面:一是命名实体,比如“奥迪A4L”,“小4”,“发动机”等;二是评价词(指反应用户情感倾向的词),比如“省油”,“漂亮”,“异

2、响”等。,算法基本原理,算法原理简单来说:就是结合文本的上下文,统计经常出现(设置一定的阈值)的字符串,而这样的字符串往往是词。,奥迪A4L,1500KM了。不错! 奥迪A4L外形靓丽回头率 奥迪A4L自动挡的车很大气 奥迪A6L2.0自动挡的驾驶室比较大气,假设将共同出现的频次阈值设置为2,则“奥迪A4L”、“自动挡”和“大气”应共同出现,并且满足阈值要求,就会被发现出来。,举例:,算法基本原理,关键词发现算法的过程类似于寻找最大频繁项集的过程。,算法基本原理,首先拆分成单个字符: A B C A B C D A B # 满足阈值,相邻合并 AB BC CA AB BC # AB # 迭代

3、ABC # ABC 抽取AB 迭代 # 抽取ABC 抽取出AB和ABC,我们将其加入到关键词候选库,字符串:ABCABCD 参数设置:阈值设置为2 关键词的长度要求设置为不小于2,特点说明: 该方法将满足阈值的都会提取出来(有利) 会抽取出破碎子串(不利),虚线表示反馈,初步方案设计,去噪/提高效率,开头规则,包含规则,结尾规则,英文字符处理,小范围测试结果看来,准确率挺好。 但是从整体的效果看来,正确率比这个低了不少 (不便统计、目测,但在考虑组合词为正确的情况下,至少应该60%左右),总结,由于整个数据集数量较大,用奥迪A4L的外观评价为例,进行测试 所有抽取的词如下表:,谢谢,不正之处请指正。,在以后的工作中会多向大家学习请教!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号