《面向社交用户的商业大数据挖掘研究简述》由会员分享,可在线阅读,更多相关《面向社交用户的商业大数据挖掘研究简述(10页珍藏版)》请在金锄头文库上搜索。
1、面向社交用户的商业大数据挖掘 研究简述 作者作者简介简介:赵鑫,中国人民大学信息学院讲师。师从北京大学李晓明教授,博士期间专注于研究 面向文本内容的社交用户话题兴趣建模(北京大学优秀博士论文),曾获得过两个科研资助: 2011 年谷歌博士奖研金和 2012 年微软亚洲博士奖研金。近五年内在国内外著名学术期刊与会议 上以第一作者或者通讯作者身份发表论文近 40 篇(含已录用论文),其中包括信息检索领域顶级 学术期刊 ACM TOIS 和学术会议 SIGIR、数据挖掘领域顶级学术期刊 IEEE TKDE 和学术会议 SIGKDD、 自然语言处理顶级会议 ACL 和 EMNLP。所发表的学术论文取得
2、了一定的关注度,据 Google Scholar 统计,已发表论文共计被引用 1100 余次,其中以第一作者发表的Comparing Twitter and Traditional Media Using Topic Models被引用 539 次。担任多个重要的国际会议 (WWW, IJCAI,CIKM,ACL,EMNLP 等) 和期刊 (ACM TOIS/TKDD/TIST,IEEE TKDE 等) 评审,曾担任 CCL 2015/2016、 AIRS 2016 出版主席。目前为中国中文信息学会青年工作委员会以及社会媒体处理专业委员会委员。 研究背景简介 最近几年,电子商务网站快速发展,典
3、型的商业巨头包括国内的京东、淘宝,国外的 亚马逊(Amazon)、易趣(eBay)等。这些电子商务网站克服了传统消费中地理位置和时间的 限制,在有效的物流机制支持下,使得商务交易可以在任何地方、任何时间发生,极大地 满足了用户的购物需求。 从一个方面来看,电子商务平台网站本身累积了大量的用户数据,如用户购买记录、 搜索记录、评论记录等。围绕着这些电商平台的数据,很多科研和工程人员努力改善电子 商务网站的服务,使其更好地满足用户的需求。常用技术主要用于建立基于电子商务平台 的搜索系统以及推荐系统。尽管这些方面己经受到了国内外学者的高度重视,大部分研究 都是针对某个电子商务网站量身打造,所开发的产
4、品推荐系统会受到该电子商务网站本身 所提供的信息量和信息来源的制约。因此,能否重新梳理和拓宽研究视角至关重要。 从另一个方面来看,随着互联网技术的快速发展,社交媒体服务在用户的真实生活中 发挥着越来越重要的作用,得到了广泛使用。同一用户可能同时拥有多个社交媒体网站的 账号,分别对应着不同的网络社区身份。以这些社区身份为基础,用户可以同时参与到多 个社交媒体平台,享受其中提供的应用服务。同时,随着社交媒体服务平台向移动客户端 的迁移,一个智能移动通讯工具(如手机、平板电脑等)往往会绑定多种应用服务,使得 这种拥有多社区身份的发展趋势进一步得到加强。因此,能否同时围绕用户的“真实身份” 与“在线社
5、交身份”打造电子商务服务,是非常重要的思维创新。同时利用电子电子商务商务平平 台上的数据台上的数据以及社交媒体社交媒体平台上的用户数据平台上的用户数据,能够解决一些之前电子商务平台网站很难 解决的技术挑战,如冷启动推荐问题等。 本综述将充分结合两个方面的数据,简述作者在这一方向已完成的一些工作与进展。 重要任务以及相应方法概览 本文主要考虑三个重要任务:用户画像构建、用户意图检测和用户需求推荐。 用户画像构建 用户画像旨在为社交用户构建起一个可量化的特征表示,包括简单的属性特征(如年 龄、性别)以及复杂的模式特征(如网络隐含表示)。下面分两个方面进行讨论。 1.1. 简单特征抽取与表示简单特征
6、抽取与表示 首先考虑简单的社交信息特征抽取。很多社交网站要求用户在注册时填写一些身份信 息,例如,在新浪微博中,用户可以填写年龄、性别、省份、教育和职业信息。这些信息 可以直接作为用户画像的信息输入。Zhao 等人1,2利用微博用户注册的属性信息进行用户画像构建,包括性别、年龄、职业、兴趣等,并且将得到的用户画像应用到产品推荐领域。 在社交网站上,用户个人属性信息存在缺失和虚假现象,如用户隐去了年龄或者填写了错 误的年龄。解决这些问题的基础是对数据质量的评估,进行有效清洗和补全。对于社交用 户的属性信息进行清洗和补全是一个非常重要的研究问题,已经受到了研究学者的高度关 注,这里略去具体的研究工
7、作。 除了用户画像以外,还可以考虑对于物品(例如产品)建立受众画像。例如一款产品 的受众特征可以刻画为“单身未婚女性、年龄在 18 至 24 区间、大学文化程度”。如果能 够获得受众用户的群体属性特征,将对于产品推荐具有重要意义。Zhao 等人1,2主要考虑利用以下两种社交数据进行产品受众特征的学习。 a)利用电商平台的评论信息:第一种资源是在线产品评论。用户有时候会在评论内 容中显式地提及与受众属性信息相关的信息。例如,在一条评论数据中“这款手机不错, 给儿子买一个”暗示当前的产品适合该评论作者的儿子,也就是她的儿子是该产品的一个 潜在受众,同时也可以推断知道 年轻年轻男士男士 是一个受众的
8、两个特征。 b) 利用微博平台的关注信息:在微博中,用户可以自由地表达自己对于某款产品或 者品牌的情感。如果情感取向为“正”(褒),就可以把当前用户当作一个潜在的产品受众。 通过搜集这样的正向情感用户,然后聚合他们的个人属性信息,用来推断该产品的受众特 征。主要采用如下两种用户行为来捕捉用户对于某一产品的正向情感,包括关注关系 (following)和提及关系(mentioning): 如果一个用户对某一产品感兴趣或者己经使用过 该产品,她很有可能通过发表状态文本的形式来表达自己对于该产品的情感取向。给定一 个产品,使用产品名来检索得到所有包含该产品名字的微博,然后进一步使用基于机器学 习的方
9、法来判定每条微博中的用户情感取向正向,负向。 2.2. (相对)(相对)复杂特征表示复杂特征表示 除了简单的特征抽取外,还可以对于已知的社交信息进行初步或者较为复杂的加工学 习。例如, Xiao 等人3利用微博上用户的权威度(例如 PageRank 值)以及文本相关度(与知乎提问的语义相似性)来改进知乎上最佳答案的预测。基本的假设如下:给定一个问题,如果一个知乎用户在新浪微博中的权威度越高,那么他的答案就会越有可能成为最 佳答案;如果一个知乎用户所发表的新浪微博内容与问题越相关,那么他的答案就会越有 可能成为最佳答案。该方法对原始的用户文本信息以及网络结构信息进行初步地加工学习。 在4中,Zh
10、ao 等人进一步拓展了 KDD 2014 的工作,对于文本信息以及网络结构信息使 用了分布式表示学习的方法来抽取特征表示。 特别地,最近在网络表示学习里面所提出了网络嵌入式表示(“Network Embedding”) 的方法。该方法对于具有网络结构的数据刻画能力非常好,值得用户画像建模时所考虑。 网络嵌入式表示在很多任务中都比传统的方法取得了很大的提高,其中一个重要的提升原 因就是引入了分布式表示的思想,以及有效(效果和速度上)的训练方法。对比第一种简 单抽取的方法,不难发现复杂特征表示的表示能力更强,但是缺点是可解释性通常较差。 因此,在实际应用中,可以考虑将两种类型的特征表示混合使用。
11、用户意图检测 在本文,用户意图特定指的是用户进行相关商业商业消费消费的潜在意图。传统的电子商务 网站捕捉用户意图的方法主要是利用用户的搜索日志以及用户的浏览/消费记录。随着社 交媒体平台的快速发展,可以从社交内容中进行用户意图的捕捉与挖掘。在社交网站中, 用户可以实时地发表状态文本,如朋友圈内的状态、微博平台中的短文本等等,这些文本 统称为状态文本。状态文本直接表达了用户的观点和需求,对于检测实时的用户商业意图 具有很大的价值。整体来说,用户意图可以分为两大类,即显式意图与隐式意图。 1.1. 显式显式意图检测意图检测 在显式意图里面,我们进一步定义两种不同的用户意图。 个体意图检测 首先,介
12、绍个体意图检测,即特定用户自身所表达的消费意图。例如,一名新浪微博 用户发表了一条微博“我想要换个新手机,求推荐”。该用户直接表达了消费意图,这种 通过社交网站所表达的消费意图还没有被大型电子商务网站所重视。目前,一些小型企业 (特别是创业公司)开始利用这些具有消费意图的微博进行产品的定向推广。Zhao 等人1在 KDD 2014 年的论文中首次提出使用微博数据进行用户的消费意图检测,并且将用户意 图检测任务刻画为一个二分类问题,即有商业意图和无商业意图;进一步,为了解决这个 二分类问题,使用微博的文本特征以及微博用户的人口统计学属性信息。 尽管具有商业意图的社交文本比例相对较低,但是由于社交
13、网站中的文本数量巨大, 因此即使比例很小,最后的绝对数字仍然很大,值得电商平台思考去进一步挖掘与利用。 Wang 等人5对于上述问题进行了一个泛化,不再是简单考虑二分类问题,而是利用Twitter 中的状态文本建立了一个消费意图体系。该分类体系主要是基于国外团购网站Groupon1的分类体系进行修改得到的。在该文里面,作者对于数千条微博进行了人工标注以及分类,最后得到如下的类别体系(图 1): 图 1 Twitter 中消费意图体系与比例 在微博中,获得有标注的用户意图数据非常困难。因此在5中,作者设计了一个基于图 正则化的半监督标注算法,可以有效利用意图关键词以及微博之间的语义关系来缓解有标
14、 注数据的稀疏性。 群体意图检测 上述主要介绍了基于个体的消费意图检测。对比个体意图检测,群体意图检测主要关 心一个群体中的用户所表达出的整体意图模式。以下图(图 2)为例,在“大黄鸭”事件 之后,淘宝搜索引擎很快就已经生成了一些相关的定制查询,这些查询是人们集中所关心 的一些购买产品。这一个例子说明了群体消费意图很有可能是由于特定事件或者话题所引 起的。再举一个例子,如“北京雾霾”这一事件带来的群体性消费意图,可能是口罩、空 气净化器、绿植等除霾产品的热销。 1 图 2 “大黄鸭”热点话题之后所激发的购物热潮 针对热点事件/话题对于群体性消费趋势的影响,Wang 等人6给出了量化的统计与验
15、证。具体方法为:对于新浪排行榜某一时间段内的上榜话题,人工检测是否在淘宝中存在 了对应产品,如果存在的话,就说明该话题催生了群体性消费意图。统计中考虑了五个类 别(商业、人物、体育、国内以及电影),如图 3 所示,最后得到的结论为国内国内类别内 部的话题更有可能催生更多数量的群体购买意图(绝对数量),电影电影类别内部的话题所 催生的购买意图比例最高(相对比例)。那么给定一个热门话题,如何提前预知哪些产品 会成为相关热销产品呢?Wang 等人6继续提出了一个新颖的思路,首先将热点话题作为查询去检索相关微博,然后识别检索得到的微博所包含的产品名字(例如,“又雾霾了,赶 快买口罩口罩”),最后利用产
16、品间的关联性加强相关度的判断,取得了不错的效果。这种 解决方法巧妙地利用了群体智慧以及社交平台的及时性。 图 3 新浪话题榜单中的话题所对应的商业购买意向比例 2.2. 隐式隐式意图检测意图检测 对于隐式意图来说,是指用户在社交文本中没有显式提及任何商品名称,也没有直接 提及任何购买行为,但是具有一定的购买暗示性与潜在性。如,“刚生下来的小 baby 总喜欢尿床,太让人崩溃了”这条微博说明该用户为一个新生儿的父母,尽管没有流露出任 何购买意图,但是可以推断得知,他们可能具有购买婴儿纸尿裤产品的倾向。目前来说, 捕捉这种隐式的话题与产品之间的关联非常具有挑战性,需要深层次的推理机制和算法, 同时需要特定领域的知识图谱或者先验知识的支持。对于研究学者来说,更大的挑战是, 很难进行精准的量化评测。例如,在上面的例子中,我们无法得知该新生儿的家长在真实 生活中是否购买了纸尿裤,从而无法断定这条微博是否一定具有商业意图。 用户需求推荐 用户画像和意图检测解决了“用户是谁”和“