面向社交用户的商业大数据挖掘研究简述

ldj****22

实名认证

店铺

PDF

936.13KB

约10页

文档ID:45307773

1/10页

点击查看更多>>

文本预览下载提示常见问题

面向社交用户的商业大数据挖掘研究简述作者作者简介简介：赵鑫，中国人民大学信息学院讲师师从北京大学李晓明教授，博士期间专注于研究面向文本内容的社交用户话题兴趣建模（北京大学优秀博士论文），曾获得过两个科研资助： 2011 年谷歌博士奖研金和 2012 年微软亚洲博士奖研金近五年内在国内外著名学术期刊与会议上以第一作者或者通讯作者身份发表论文近 40 篇（含已录用论文），其中包括信息检索领域顶级学术期刊 ACM TOIS 和学术会议 SIGIR、数据挖掘领域顶级学术期刊 IEEE TKDE 和学术会议 SIGKDD、自然语言处理顶级会议 ACL 和 EMNLP所发表的学术论文取得了一定的关注度，据 Google Scholar 统计，已发表论文共计被引用 1100 余次，其中以第一作者发表的《Comparing Twitter and Traditional Media Using Topic Models》被引用 539 次担任多个重要的国际会议 (WWW, IJCAI,CIKM,ACL,EMNLP 等) 和期刊 (ACM TOIS/TKDD/TIST,IEEE TKDE 等) 评审，曾担任 CCL 2015/2016、 AIRS 2016 出版主席。

目前为中国中文信息学会青年工作委员会以及社会媒体处理专业委员会委员研究背景简介最近几年，电子商务网站快速发展，典型的商业巨头包括国内的京东、淘宝，国外的亚马逊(Amazon)、易趣(eBay)等这些电子商务网站克服了传统消费中地理位置和时间的限制，在有效的物流机制支持下，使得商务交易可以在任何地方、任何时间发生，极大地满足了用户的购物需求从一个方面来看，电子商务平台网站本身累积了大量的用户数据，如用户购买记录、搜索记录、评论记录等围绕着这些电商平台的数据，很多科研和工程人员努力改善电子商务网站的服务，使其更好地满足用户的需求常用技术主要用于建立基于电子商务平台的搜索系统以及推荐系统尽管这些方面己经受到了国内外学者的高度重视，大部分研究都是针对某个电子商务网站量身打造，所开发的产品推荐系统会受到该电子商务网站本身所提供的信息量和信息来源的制约因此，能否重新梳理和拓宽研究视角至关重要从另一个方面来看，随着互联网技术的快速发展，社交媒体服务在用户的真实生活中发挥着越来越重要的作用，得到了广泛使用同一用户可能同时拥有多个社交媒体网站的账号，分别对应着不同的网络社区身份。

以这些社区身份为基础，用户可以同时参与到多个社交媒体平台，享受其中提供的应用服务同时，随着社交媒体服务平台向移动客户端的迁移，一个智能移动通讯工具（如、平板电脑等）往往会绑定多种应用服务，使得这种拥有多社区身份的发展趋势进一步得到加强因此，能否同时围绕用户的“真实身份” 与“社交身份”打造电子商务服务，是非常重要的思维创新同时利用电子电子商务商务平平台上的数据台上的数据以及社交媒体社交媒体平台上的用户数据平台上的用户数据，能够解决一些之前电子商务平台网站很难解决的技术挑战，如冷启动推荐问题等本综述将充分结合两个方面的数据，简述作者在这一方向已完成的一些工作与进展重要任务以及相应方法概览本文主要考虑三个重要任务：用户画像构建、用户意图检测和用户需求推荐用户画像构建用户画像旨在为社交用户构建起一个可量化的特征表示，包括简单的属性特征（如年龄、性别）以及复杂的模式特征（如网络隐含表示）下面分两个方面进行讨论 1.1. 简单特征抽取与表示简单特征抽取与表示首先考虑简单的社交信息特征抽取很多社交网站要求用户在注册时填写一些身份信息，例如，在新浪微博中，用户可以填写年龄、性别、省份、教育和职业信息。

这些信息可以直接作为用户画像的信息输入Zhao 等人[1,2]利用微博用户注册的属性信息进行用户画像构建，包括性别、年龄、职业、兴趣等，并且将得到的用户画像应用到产品推荐领域在社交网站上，用户个人属性信息存在缺失和虚假现象，如用户隐去了年龄或者填写了错误的年龄解决这些问题的基础是对数据质量的评估，进行有效清洗和补全对于社交用户的属性信息进行清洗和补全是一个非常重要的研究问题，已经受到了研究学者的高度关注，这里略去具体的研究工作除了用户画像以外，还可以考虑对于物品（例如产品）建立受众画像例如一款产品的受众特征可以刻画为“单身未婚女性、年龄在 18 至 24 区间、大学文化程度”如果能够获得受众用户的群体属性特征，将对于产品推荐具有重要意义Zhao 等人[1,2]主要考虑利用以下两种社交数据进行产品受众特征的学习 a）利用电商平台的评论信息：第一种资源是产品评论用户有时候会在评论内容中显式地提及与受众属性信息相关的信息例如，在一条评论数据中“这款不错，给儿子买一个”暗示当前的产品适合该评论作者的儿子，也就是她的儿子是该产品的一个潜在受众，同时也可以推断知道[ [年轻年轻][][男士男士] ]是一个受众的两个特征。

b) 利用微博平台的关注信息：在微博中，用户可以自由地表达自己对于某款产品或者品牌的情感如果情感取向为“正”(褒)，就可以把当前用户当作一个潜在的产品受众通过搜集这样的正向情感用户，然后聚合他们的个人属性信息，用来推断该产品的受众特征主要采用如下两种用户行为来捕捉用户对于某一产品的正向情感，包括关注关系 (following)和提及关系(mentioning): 如果一个用户对某一产品感兴趣或者己经使用过该产品，她很有可能通过发表状态文本的形式来表达自己对于该产品的情感取向给定一个产品，使用产品名来检索得到所有包含该产品名字的微博，然后进一步使用基于机器学习的方法来判定每条微博中的用户情感取向{正向，负向} 2.2. （相对）（相对）复杂特征表示复杂特征表示除了简单的特征抽取外，还可以对于已知的社交信息进行初步或者较为复杂的加工学习例如， Xiao 等人[3]利用微博上用户的权威度（例如 PageRank 值）以及文本相关度（与知乎提问的语义相似性）来改进知乎上最佳答案的预测基本的假设如下：给定一个问题，如果一个知乎用户在新浪微博中的权威度越高，那么他的答案就会越有可能成为最佳答案；如果一个知乎用户所发表的新浪微博内容与问题越相关，那么他的答案就会越有可能成为最佳答案。

该方法对原始的用户文本信息以及网络结构信息进行初步地加工学习在[4]中，Zhao 等人进一步拓展了 KDD 2014 的工作，对于文本信息以及网络结构信息使用了分布式表示学习的方法来抽取特征表示特别地，最近在网络表示学习里面所提出了网络嵌入式表示(“Network Embedding”) 的方法该方法对于具有网络结构的数据刻画能力非常好，值得用户画像建模时所考虑网络嵌入式表示在很多任务中都比传统的方法取得了很大的提高，其中一个重要的提升原因就是引入了分布式表示的思想，以及有效（效果和速度上）的训练方法对比第一种简单抽取的方法，不难发现复杂特征表示的表示能力更强，但是缺点是可解释性通常较差因此，在实际应用中，可以考虑将两种类型的特征表示混合使用用户意图检测在本文，用户意图特定指的是用户进行相关商业商业消费消费的潜在意图传统的电子商务网站捕捉用户意图的方法主要是利用用户的搜索日志以及用户的浏览/消费记录随着社交媒体平台的快速发展，可以从社交内容中进行用户意图的捕捉与挖掘在社交网站中，用户可以实时地发表状态文本，如朋友圈内的状态、微博平台中的短文本等等，这些文本统称为状态文本。

状态文本直接表达了用户的观点和需求，对于检测实时的用户商业意图具有很大的价值整体来说，用户意图可以分为两大类，即显式意图与隐式意图 1.1. 显式显式意图检测意图检测在显式意图里面，我们进一步定义两种不同的用户意图  个体意图检测首先，介绍个体意图检测，即特定用户自身所表达的消费意图例如，一名新浪微博用户发表了一条微博“我想要换个新，求推荐”该用户直接表达了消费意图，这种通过社交网站所表达的消费意图还没有被大型电子商务网站所重视目前，一些小型企业（特别是创业公司）开始利用这些具有消费意图的微博进行产品的定向推广Zhao 等人[1]在 KDD 2014 年的论文中首次提出使用微博数据进行用户的消费意图检测，并且将用户意图检测任务刻画为一个二分类问题，即有商业意图和无商业意图；进一步，为了解决这个二分类问题，使用微博的文本特征以及微博用户的人口统计学属性信息尽管具有商业意图的社交文本比例相对较低，但是由于社交网站中的文本数量巨大，因此即使比例很小，最后的绝对数字仍然很大，值得电商平台思考去进一步挖掘与利用 Wang 等人[5]对于上述问题进行了一个泛化，不再是简单考虑二分类问题，而是利用Twitter 中的状态文本建立了一个消费意图体系。

该分类体系主要是基于国外团购网站Groupon1的分类体系进行修改得到的在该文里面，作者对于数千条微博进行了人工标注以及分类，最后得到如下的类别体系（图 1）：图 1 Twitter 中消费意图体系与比例在微博中，获得有标注的用户意图数据非常困难因此在[5]中，作者设计了一个基于图正则化的半监督标注算法，可以有效利用意图关键词以及微博之间的语义关系来缓解有标注数据的稀疏性  群体意图检测上述主要介绍了基于个体的消费意图检测对比个体意图检测，群体意图检测主要关心一个群体中的用户所表达出的整体意图模式以下图（图 2）为例，在“大黄鸭”事件之后，淘宝搜索引擎很快就已经生成了一些相关的定制查询，这些查询是人们集中所关心的一些购买产品这一个例子说明了群体消费意图很有可能是由于特定事件或者话题所引起的再举一个例子，如“北京雾霾”这一事件带来的群体性消费意图，可能是口罩、空气净化器、绿植等除霾产品的热销 1 图 2 “大黄鸭”热点话题之后所激发的购物热潮针对热点事件/话题对于群体性消费趋势的影响，Wang 等人[6]给出了量化的统计与验证具体方法为：对于新浪排行榜某一时间段内的上榜话题，人工检测是否在淘宝中存在了对应产品，如果存在的话，就说明该话题催生了群体性消费意图。

统计中考虑了五个类别（商业、人物、体育、国内以及电影），如图 3 所示，最后得到的结论为国内国内类别内部的话题更有可能催生更多数量的群体购买意图（绝对数量），电影电影类别内部的话题所催生的购买意图比例最高（相对比例）那么给定一个热门话题，如何提前预知哪些产品会成为相关热销产品呢？Wang 等人[6]继续提出了一个新颖的思路，首先将热点话题作为查询去检索相关微博，然后识别检索得到的微博所包含的产品名字（例如，“又雾霾了，赶快买口罩口罩”），最后利用产品间的关联性加强相关度的判断，取得了不错的效果这种解决方法巧妙地利用了群体智慧以及社交平台的及时性图 3 新浪话题榜单中的话题所对应的商业购买意向比例 2.2. 隐式隐式意图检测意图检测对于隐式意图来说，是指用户在社交文本中没有显式提及任何商品名称，也没有直接提及任何购买行为，但是具有一定的购买暗示性与潜在性如，“刚生下来的小 baby 总喜欢尿床，太让人崩溃了”这条微博说明该用户为一个新生儿的父母，尽管没有流露出任何购买意图，但是可以推断得知，他们可能具有购买婴儿纸尿裤产品的倾向目前来说，捕捉这种隐式的话题与产品之间的关联非常具有挑战性，需要深层次的推理机制和算法，同时需要特定领域的知识图谱或者先验知识的支持。

对于研究学者来说，更大的挑战是，很难进行精准的量化评测例如，在上面的例子中，我们无法得知该新生儿的家长在真实生活中是否购买了纸尿裤，从而无法断定这条微博是否一定具有商业意图用户需求推荐用户画像和意图检测解决了“用户是谁”和“。

下载提示

点击查看常见问题

相似文档

正为您匹配相似的精品文档