毕业答辩-基于主题模型的用户手机日志数据分析

上传人:QQ15****706 文档编号:98022264 上传时间:2019-09-07 格式:PPTX 页数:22 大小:765.93KB
返回 下载 相关 举报
毕业答辩-基于主题模型的用户手机日志数据分析_第1页
第1页 / 共22页
毕业答辩-基于主题模型的用户手机日志数据分析_第2页
第2页 / 共22页
毕业答辩-基于主题模型的用户手机日志数据分析_第3页
第3页 / 共22页
毕业答辩-基于主题模型的用户手机日志数据分析_第4页
第4页 / 共22页
毕业答辩-基于主题模型的用户手机日志数据分析_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《毕业答辩-基于主题模型的用户手机日志数据分析》由会员分享,可在线阅读,更多相关《毕业答辩-基于主题模型的用户手机日志数据分析(22页珍藏版)》请在金锄头文库上搜索。

1、姓名: 导师:,基于主题模型的 用户手机日志数据分析,内容简介 主要工作及结果 总结展望,内容简介,主要工作,数据预处理,语料库(Corpus)中共有两篇文档(Documents) John likes to watch movies. Mary likes movies too. John also likes to watch football games. 构建单词库(Vocabulary) 得到bag-of-words表示 1, 2, 1, 1, 2, 0, 0, 0, 1, 1 1, 1, 1, 1, 0, 1, 1, 1, 0, 0,Bag-of-words,手机用户安装的应用列表

2、 手机应用对应的标签列表,原始数据,获取 Bag-of-labels,用户特征分析,主题模型,什么是主题?,主题模型,Latent Sematic Analysis SVD分解,主题模型,Probabilistic Latent Sematic Analysis 参数估计方法:EM算法 PLSA优点:有统计基础,能比LSA更好地提取文章特征。 PLSA缺点:对于训练集以外的文章,难以给出一个主题分布。,主题模型,Latent Dirichlet Allocation,LDA,在PLSA的基础上增加了先验,可以对训练集以外的文本进行推断 LDA参数估计方法分两类: 变分推导(Variationa

3、l Inference) 采样(Sampling Methods) 我的实现:基于Gibbs Sampling,LDA结果,聚类及可视化,K-means聚类,气泡图可视化,简单的推荐系统,简单的推荐系统,思路:基于用户相似度的协同过滤。 方法:对于某一个待推荐的用户,找到训练集中与他相似度最高的前K个用户,然后进行推荐。 两个推荐系统的不同之处仅在于用户相似度计算方法 推荐系统1:利用用户安装列表直接计算相似度 推荐系统2:利用用户的主题分布计算相似度,推荐系统准确率对比,结论:使用了LDA以后,用户相似度的计算更加准确,因此LDA可以更好地提取用户的特征。,完成了用主题模型对手机日志数据进行分析的一种方法: 1)用主题模型对用户数据进行分析 2)利用分析结果进行聚类和人群可视化 3)利用分析结果进行应用推荐 未来方向: 1)完善手机应用标签库(可能需人工干预) 2)结合用户其他维度信息,改造LDA的贝叶斯网 3)想出一套标准,可以评价主题模型分析结果的优劣,总结展望,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 论文指导/设计

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号