微博中特定用户的相似用户发现方法

上传人:ldj****22 文档编号:45690821 上传时间:2018-06-18 格式:PDF 页数:15 大小:703.85KB
返回 下载 相关 举报
微博中特定用户的相似用户发现方法_第1页
第1页 / 共15页
微博中特定用户的相似用户发现方法_第2页
第2页 / 共15页
微博中特定用户的相似用户发现方法_第3页
第3页 / 共15页
微博中特定用户的相似用户发现方法_第4页
第4页 / 共15页
微博中特定用户的相似用户发现方法_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《微博中特定用户的相似用户发现方法》由会员分享,可在线阅读,更多相关《微博中特定用户的相似用户发现方法(15页珍藏版)》请在金锄头文库上搜索。

1、书书书第 卷第期 年月计算机学报 收稿日期: ; 在线出版日期: 本课题得到国家自然科学基金( ) 、 江苏省产学研前瞻性联 合 研 究基 金( ) 和江苏省六大人才高峰基金资助( ) 资助仲兆满, 男, 年生, 博士, 副教授, 中国计算机学会( ) 会员, 主要研究方向为信息检索、 人工智能 : 胡云, 女, 年生, 博士, 副教授, 主要研究方向为社交网络分析李存华, 男, 年生, 博士, 教授, 主要研究领域为数据挖掘刘宗田, 男, 年生, 教授, 主要研究领域为人工智能、 软件工程微博中特定用户的相似用户发现方法仲兆满) ,)胡云)李存华)刘宗田)( 淮海工学院计算机工程学院江苏 连

2、云港 )( 江苏金鸽网络科技有限公司软件研发中心江苏 连云港 )( 上海大学计算机工程与科学学院上海 )摘要微博的用户关系分析是近期的研究热点, 而用户的相似度计算是微博用户关系分析的基础已有方法在发现相似用户时, 主要面向关注和粉丝群体, 用户微博相似度及交互相关性计算对微博的动态特性利用不够该文提出了新颖的微博特定用户的相似用户发现方法, 该方法的创新性主要体现在: () 发现相似用户时, 在关注和粉丝的基础上引入了访客类用户, 扩展了已有方法局限于关注和粉丝构建自我网络( ) 的模型, 增加了发现相似用户的多样性; () 根据微博动态社交的特点, 提出了用户动态微博的相似度计算和动态交互

3、相关性计算方法,以时间片为动态社交划分的基础, 以指数衰减为累加策略, 使得微博用户的相似度计算更为合理, 发现的相似用户更为准确以新浪微博为例, 选取了学术研究、 企业管理、 教育、 文化、 军事个领域的 个种子用户, 使用犛狀( 前狀个用户的得分) 为评价指标, 进行了相似用户发现的实验分析和比较结果显示, 访客类用户可以扩展相似用户的发现范围, 访客在发现的相似用户中的比例为 , 动态的微博相似度和交互相关性计算方法能够改善用户相似度的计算效果, 比已有的最新方法的犛狀指标提高了 关键词用户关系分析; 用户相似度计算; 扩展的自我网络; 动态微博相似度计算; 动态交互相关性计算; 社会媒

4、体; 社交网络; 数据挖掘中图法分类号 犇 犗 犐号 犇 犻 狊 犮 狅 狏 犲 狉 犻 狀 犵犛 犻 犿 犻 犾 犪 狉犝 狊 犲 狉 狊 犳 狅 狉犛 狆 犲 犮 犻 犳 犻 犮犝 狊 犲 狉狅 狀犕 犻 犮 狉 狅 犫 犾 狅 犵 ) ,) ) ) )(犛 犮 犺 狅 狅 犾 狅 犳犆 狅 犿 狆 狌 狋 犲 狉犈 狀 犵 犻 狀 犲 犲 狉 犻 狀 犵,犎 狌 犪 犻 犺 犪 犻 犐 狀 狊 狋 犻 狋 狌 狋 犲狅 犳犜 犲 犮 犺 狀 狅 犾 狅 犵 狔,犔 犻 犪 狀 狔 狌 狀 犵 犪 狀 犵,犑 犻 犪 狀 犵 狊 狌 )(犛 狅 犳 狋 狑 犪 狉 犲犚牔犇犆 犲 狀 狋

5、犲 狉,犑 犻 犪 狀 犵 狊 狌犑 犻 狀 犵 犲犖 犲 狋 狑 狅 狉 犽犜 犲 犮 犺 狀 狅 犾 狅 犵 狔犆 狅,犔 狋 犱,犔 犻 犪 狀 狔 狌 狀 犵 犪 狀 犵,犑 犻 犪 狀 犵 狊 狌 )(犛 犮 犺 狅 狅 犾 狅 犳犆 狅 犿 狆 狌 狋 犲 狉犈 狀 犵 犻 狀 犲 犲 狉 犻 狀 犵犪 狀 犱犛 犮 犻 犲 狀 犮 犲,犛 犺 犪 狀 犵 犺 犪 犻犝 狀 犻 狏 犲 狉 狊 犻 狋 狔,犛 犺 犪 狀 犵 犺 犪 犻 )犃 犫 狊 狋 狉 犪 犮 狋 , , :() , ; () , , , , , , , 犛狀( 狀 ) ( ) , (犛狀, , )犓 犲 狔

6、 狑 狅 狉 犱 狊 ; ; ; ; ; ; ; 引言当今, 社交媒体被认为是 上最有价值的信息资源之一微博平台作为众多社交媒体中的一种,由于其传播性强、 操作便利, 很多用户在微博平台形成了类似于现实社会的交往圈子传统媒体中用户和话题之间是二部网络, 微博平台由于引入了关注关系( ) , 使得用户和话题之间变得非常复杂,被认为是多模网络由于微博平台信息传播性强、 具有复杂的网络结构, 近几年引起了学术界和产业界的高度重视微博中的相似用户是指在微博媒体上具有若干共同属性的用户群, 这些属性主要包括用户的背景、关注、 粉丝、 微博、 交互等信息微博用户相似度度量的基础理论来源于社会学中的“ 同质

7、性” ( ) ,即有关联的人往往有相似的特征, 同时, 联系越紧密, 相似度越高 社交媒体上用户的信息总体上分为两类: 一类是用户的背景( 比如地点、 教育、 职业、 兴趣等) 和发表的微博信息( 包括原创、 转发或者评论) ; 另一类是基于关注和粉丝构建的社交网络基于这两类信息, 已有的用户相似度计算方法大体上可以分为类: () 基于用户的背景和微博的文本信息方法, 简记为犛 犝犇 犅 狔 犜 犲 狓 狋; () 基于关注和粉丝的社交网络方法, 简记为犛 犝犇 犅 狔 犛 犖; () 混合方法,即对基于文本方法犛 犝犇 犅 狔 犜 犲 狓 狋和基于社交网络方法犛 犝犇 犅 狔 犛 犖的融合计

8、算, 简记为犛 犝犇 犅 狔 犜 犛 犖近期出现的一些研究成果多是围绕犛 犝犇 犅 狔 犜 犛 犖方法展开的, 可以认为犛 犝犇 犅 狔 犜 犛 犖是社交媒体用户相似度计算的主流研究方法本文从微博中指定的用户出发, 在微博平台上尽量发现多的相似度高的用户本文的研究内容属于社交网络中的自我网络分析, 即站在个体的角度去分析个体本身及个体周围结点; 研究方法综合了用户的文本信息和社交网络, 属于犛 犝犇 犅 狔 犜 犛 犖方法的范畴该项研究的意义在于: () 特定行业用户的线索发现, 比如某个用户有涉恐倾向, 在微博中挖掘有相似倾向的用户; () 个性化推荐, 比如为某个用户自动在微博中推荐志同道

9、合的好友, 或者厂家自动将广告推送给有相似兴趣的微博用户; () 是社交整体网络分析的基础, 比如通过计算用户的相似度, 将微博上的用户划分为若干社群, 以进一步研究社群特性本文的创新点主要体现在两点: () 已有相似用户发现方法在微博社交网络关系的利用上, 仅考虑了关注和粉丝两类用户根据访客可以对用户发表的微博进行转发或评论的特点, 在相似用户的发现时, 引入了访客类用户, 提出了扩展的自我网络模型犈 犈犖( ) , 增加了发现相似用户的全面性和多样性; () 已有相似用户计算方法在计算用户的微博相似度和交互相关性时, 没能体现微博社交的动态性在用户的微博相似度和交互相关性计算方面, 引入了

10、时间的动态划分, 能更好的体现微博的动态性, 使得发现的相似用户更为准确本文第节介绍已有的相关研究工作, 包括基于用户的背景和微博的文本信息的方法, 基于关注和粉丝的社交网络的方法及混合方法; 第节详细地阐述本文所提方法的原理和流程, 包括相似用户发现模型、 用户相似度计算模型、 用户动态微博相似度计算方法及用户动态交互相关性计算方法; 第节从发现相似用户的准确性, 关注、 粉丝及微博的系数权重, 时间片的划分, 交互相关性的作用, 时间衰减累加策略及发现相似用户的分布情况等角度进计算机学报 年行了实验对比分析, 以验证本文所提方法的有效性;第节对本文进行总结, 探讨该方法的优缺点以及未来的研

11、究方向相关工作犛 犝犇 犅 狔 犜 犲 狓 狋相 关 方 法 是 早 期 研 究 的 重 点, 等人在计算用户的相似度时, 根据用户的基本属性( 包括位置、 家乡、 活动、 兴趣、 专长等) 提取若干关键词, 基于语义距离计算关键词的相似性, 进而获取用户的相似度 等人在研究重叠社区发现时, 认为用户的关联性( 粉丝或关注)过于自由, 重点使用了用户的元数据 ( 比如标签) 计算用户的相似度 等人研究社交网络的工作推荐时, 重点考虑的是用户的背景信息,对不同的社交媒体, 选取了不同的背景信息, 主要包括工作、 教育、 简历、 兴趣、 职位等信息进一步地, 利用了用户的朋友( ) 信息, 但结论

12、是背景相似的朋友才有价值文献 在社交推荐系统中也都有朋友信息的利用, 但都是基于朋友的背景信息, 没有考虑朋友之间的社交信息 等人从一个用户出发, 基于社交标签寻找到他感兴趣的社区社区的社交标签通过社区成员的标签提取, 包括成员的兴趣、 情感、 地理位置、 时间等 设计了通用的朋友推荐框架, 在推荐朋友时, 基于他们的地点、 时间和内容等信息文献 在研究社区发现时,认为使用用户的背景, 共享的图片、 视频和标签等信息, 既简单又有效仅利用用户之间的社交网络计算用户相似度方法较少, 此类方法属于犛 犝犇 犅 狔 犛 犖类型 等人 利用用户之间的交互性来度量用户关系强度, 比如通信、 文件传输等,

13、 其中通信也包含相互之间的转发或评论等行为 等人 认为主流的推荐系统可以分为基于内容的和基于协作的两类类型, 提出了基于内聚性( ) 的社交媒体好友推荐方法, 内聚性体现在连通性( ) 和密集度( ) 两个方面 等人 计算朋友相似度时, 考虑了网络的结构及用户之间真实的信息交互综合的利用用户的背景和微博信息及用户的社交网络, 是主流的研究方法, 即犛 犝犇 犅 狔 犜 犛 犖类研究方法徐志明等人 在度量用户的相似度时, 考虑了用户的背景信息( 位置、 标签及个人简介) 、 微博、 社交和交互信息, 以 个用户作为种子节点, 抓取了层关联的粉丝、 关注用户, 并认为社交信息在计算用户的相似度时最

14、有价值背景的位置信息的相似度计算采用了分层比较的方法, 标签及个人简介的相似度计算采用了编辑距离的方法 等人 融合了用户的属性和用户间的交互计算用户关系强度, 用户的属性包括学校、 工作单位、 兴趣组和地理位置等彭泽环等人 在进行微博用户推荐时, 利用了用户的微博、 个人信息、 交互信息、 社交拓扑信息等类因素, 面向腾讯微博进行了数据采集与实验对比, 结果显示用户的交互信息对相似用户的推荐性能影响最大 等人 提出了使用用户的社交标签及网络的拓扑结构计算用户的相似度 等人 在研究私人朋友推荐 时( 面向的是用户的朋友及社交标签都是隐藏的媒体) , 用户相似度计算方法借鉴了文献 提出的方法 等人

15、 研究了情趣相同社区( ) 的发现, 考虑了用户对感兴趣话题的排名, 不是简单的计算两个用户话题的交集,此外还使用频繁项集挖掘社区的核心用户 等人 同样利用了用户的背景信息和网络结构计算用户的相似度但不同的是, 由于用户背景信息难以全面的获取, 提出了从用户朋友已有的数据中, 自动挖掘推理出用户的一些可能的背景信息综上所述, 在社交网络的用户相似度计算方面,已经有一些研究成果, 融合用户的文本信息和社交网络的计算方法是目前主流的研究方法用户相似度计算是诸多系统的基础, 包括好友推荐系统、 社区发现、 社区划分等相关工作没有提及到针对给定的用户, 在微博中通过关注、 粉丝及访客快速发现相似用户的

16、研究内容自我网络的构建是以关注和粉丝为基础, 没有提及到访客类用户的利用在用户的微博相似度计算及交互相关性计算等方面, 已有方法对时间要素的利用不够, 缺少微博动态社交的深入研究特定用户的相似用户发现方法 基本概念在介绍本方法之前, 先形式化定义几个相关的概念, 包括微博网络、 微博博文及微博用户定义 微博网络形式化描述为一个六元组:犕犅犖犝,犕犅 犾 狅 犵,犈犝犕犅,犈犝犝,犉犝犕犅,犆犝犕犅其中,犝为微博平台上的注册用户集;犕犅 犾 狅 犵为用户发表的微博集( 含原创、 转发或者评论的各类微博) ;期仲兆满等:微博中特定用户的相似用户发现方法犈犝犕犅犲(狌犻,犿 犫 犾 狅 犵犼)狌犻犝

17、,犿 犫 犾 狅 犵犼犕犅 犾 狅 犵为用户与其所发表微博的连接边集;犈犝犝 (狌犻狌犼)狌犻 狌犼 为用户通过关注而形成的连接关系集, 通过 关系容易得到用户的粉丝关系集;犉犝犕犅 (狌犻,犿 犫 犾 狅 犵犼)狌犻犝,狌犻 犿 犫 犾 狅 犵犼是用户与其所转发的微博的关系集;犆犝犕犅 (狌犻,犿 犫 犾 狅 犵犼)狌犻犝,狌犻 犿 犫 犾 狅 犵犼 是用户与其所评论的微博的关系集定义 微博博文形式化描述为一个三元组:犕犅 犾 狅 犵犻犕犅 犾 狅 犵犻犫 狅 犱 狔,犕犅 犾 狅 犵犻狋,犕犅 犾 狅 犵犻狌其中,犕犅 犾 狅 犵犻犫 狅 犱 狔为 微 博 主 体 内 容;犕犅 犾 狅 犵

18、犻狋为微博 发 表 的 时 间;犕犅 犾 狅 犵犻狌为 发 表 该 微 博 的用户定义 微博用户形式化描述为一个六元组:狌犻狌犻犖 犪 犿 犲,狌犻犅 犵,狌犻犕犅 犾 狅 犵,狌犻犉 狅 犾 犾 狅 狑 犲 狉,狌犻犉 犪 狀 狊,狌犻犞 犻 狊 犻 狋 狅 狉其中,狌犻犖 犪 犿 犲为微博的用户名, 是微博网络中用户的唯一标识符;狌犻犅 犵为微博平台上的用户背景信息, 不同微博平台背景有所差异;狌犻犕犅 犾 狅 犵为用户在微博网络上发表的微博集;狌犻犉 狅 犾 犾 狅 狑 犲 狉为用户的关注集;狌犻犉 犪 狀 狊为用户的粉丝集;狌犻犞 犻 狊 犻 狋 狅 狉为用户的访客集, 访客类用户指没

19、有与用户狌犻构建关注和粉丝关系, 但与狌犻进行了微博互动, 包括发表微博时的“” 、 转发或者评论行为依据定义, 可以容易地获取用户狌犻的关注数量狌犻犉 狅 犾 犾 狅 狑 犲 狉、 粉丝数量狌犻犉 犪 狀 狊及访客数量狌犻犞 犻 狊 犻 狋 狅 狉 相似用户发现模型及用户相似度计算模型给定任意一个用户, 从微博平台中尽可能发现多的相似用户是本文研究的主旨但由于微博用户的海量性, 不可能漫无目的地在用户群体中随机查找为减少计算的规模、 更快速的发现相似用户, 特定用户的相似用户发现方法一般都是从微博用户的某个子集出发, 该问题描述如下:() 输入: 微博特定用户犛 狆 犲 犮 犝 狊 犲 狉;

20、() 输出: 根据犛 狆 犲 犮 犝 狊 犲 狉构建用户的自我网络犈犖( ) , 自我网络的构建一般是基于用户的关注( ) 和粉丝( ) , 得到的用户集记为犈犖(犛 狆 犲 犮 犝 狊 犲 狉)犝,犝为微博平台所有的用户集, 再通过某种计算方法从犈犖(犛 狆 犲 犮 犝 狊 犲 狉) 中挖掘出与犛 狆 犲 犮 犝 狊 犲 狉相似的用户集犛 犻 犿犝 狊 犲 狉(犛 狆 犲 犮 犝 狊 犲 狉) ,易知犛 犻 犿犝 狊 犲 狉(犛 狆 犲 犮 犝 狊 犲 狉)犈犖(犛 狆 犲 犮 犝 狊 犲 狉)本文提出的特定用户的相似用户发现模型如图所示图特定用户的相似用户发现模型图所示模型中, 我们根据发

21、表微博时可以“” 给选定用户及访客( ) 可以对用户发表的微博进行评论或者转发的特点, 对传统的自我网络犈犖( ) 进行扩展相似粉丝、 相似关注是一种闭合空间的相似用户发现方法, 而相似访客的发现是一种类似于随机游走的发现策略, 是对犈犖的进一步扩充, 是对发现相似用户全面性及多样性有益的补充已有的社交网络分析方法, 在社交行为分析时,主要基于关注和粉丝构建用户犛 狆 犲 犮 犝 狊 犲 狉的自我网络犈犖, 用于后期分析的自我网络犈犖的用户集表示为犈犖(犛 狆 犲 犮 犝 狊 犲 狉)犉 狅 犾 犾 狅 狑 犲 狉 犆 犛(犛 狆 犲 犮 犝 狊 犲 狉)犉 犪 狀 狊 犆 犛(犛 狆 犲 犮

22、 犝 狊 犲 狉)其中,犉 狅 犾 犾 狅 狑 犲 狉 犆 犛(犛 狆 犲 犮 犝 狊 犲 狉) 为特定用户犛 狆 犲 犮 犝 狊 犲 狉的关注类用户集,犉 犪 狀 狊 犆 犛(犛 狆 犲 犮 犝 狊 犲 狉) 为犛 狆 犲 犮 犝 狊 犲 狉的粉丝类用户集扩展的自我网络犈 犈犖( ) 扩充了用户的规模,得到用于分析的用户集表示为犈 犈犖(犛 狆 犲 犮 犝 狊 犲 狉)犉 狅 犾 犾 狅 狑 犲 狉 犆 犛(犛 狆 犲 犮 犝 狊 犲 狉)犉 犪 狀 狊 犆 犛(犛 狆 犲 犮 犝 狊 犲 狉)犞 犻 狊 犻 狋 狅 狉 犆 犛(犛 狆 犲 犮 犝 狊 犲 狉)其中,犞 犻 狊 犻 狋 狅

23、狉 犆 犛(犛 狆 犲 犮 犝 狊 犲 狉)为特定用户犛 狆 犲 犮 犝 狊 犲 狉的访客集实际应用中, 根据分析深度的需求, 扩展的自我网络犈 犈犖可以层层扩展, 即根据关注、 粉丝、 访客等用户像滚雪球一样进一步采集到他们关联的用户, 不断扩充用户的规模可知, 最终发现的特定用户犛 狆 犲 犮 犝 狊 犲 狉的相似用户集犛 犻 犿犝 狊 犲 狉(犛 狆 犲 犮 犝 狊 犲 狉)犈 犈犖(犛 狆 犲 犮 犝 狊 犲 狉)本文提出的两个微博用户狌和狌之间的相似度计算模型如图所示图所 示 模 型 中, 用 户 属 性 分 为 动 态 属 性犇 狔 狀 犪 犿 犻 犮 犃 狋 狋 狉和静态属性犛

24、狋 犪 狋 犻 犮 犃 狋 狋 狉,犇 狔 狀 犪 犿 犻 犮 犃 狋 狋 狉包括微博犕犅 犾 狅 犵和交互犐 狀 狋 犲 狉 犪 犮 狋 犻 狅 狀,犛 狋 犪 狋 犻 犮 犃 狋 狋 狉包计算机学报 年图微博用户相似度计算模型括关注犉 狅 犾 犾 狅 狑 犲 狉和粉丝犉 犪 狀 狊在分别计算用户的动态微博相似度犕犅 犛 犻 犿(狌,狌) 、 动态交互相关性犚 犆(狌,狌) 、 关注相似度犉 狅 犾 犾 狅 狑 犲 狉 犛 犻 犿(狌,狌) 和粉丝相似度犉 犪 狀 狊 犛 犻 犿(狌,狌) 的基础上, 最终由这类属性决定两个用户的相似度用户文本属性的选取之所以使用用户的微博, 这是因为: 从

25、隐私的视角而言, 用户的很多背景在社交媒体上公开的较少 ,能公开的主要是兴趣爱好、 职业等; 此外, 微博媒体用户的关联, 被认为是内容驱动的, 即计算用户所发微博的相似度, 对用户相关性的计算更有价值 特定用户的相似用户发现算法本文在图的特定用户的相似用户发现模型和图的用户相似度计算模型思想的指导下, 从微博中发现特定用户的相似用户的算法设计如下算法 特定用户的相似用户发现算法输入: 微博用户犛 狆 犲 犮 犝 狊 犲 狉输出: 相似用户集合犛 犻 犿 犝 狊 犲 狉(犛 狆 犲 犮 犝 狊 犲 狉)从给定的微博用户犛 狆 犲 犮 犝 狊 犲 狉出发, 获取如下信息: 获取时间片犜 犻 犿

26、犲 犛 狆 犪 狀内用户犛 狆 犲 犮 犝 狊 犲 狉的所有微博集犕犅 犛 狆 犲 犮 犝 狊 犲 狉, 包括原创、 转发、 评论的微博; 获取犛 狆 犲 犮 犝 狊 犲 狉的关注集犉 狅 犾 犾 狅 狑 犲 狉 犆 犛(犛 狆 犲 犮 犝 狊 犲 狉)和粉丝集犉 犪 狀 狊 犆 犛(犛 狆 犲 犮 犝 狊 犲 狉) ; 根据犛 狆 犲 犮 犝 狊 犲 狉的微博集犕犅 犛 狆 犲 犮 犝 狊 犲 狉提取访客集犞 犻 狊 犻 狋 狅 狉 犆 犛(犛 狆 犲 犮 犝 狊 犲 狉) , 将类用户记为犈 犈 犖(犛 狆 犲 犮 犝 狊 犲 狉)犉 狅 犾 犾 狅 狑 犲 狉 犆 犛(犛 狆 犲 犮 犝

27、 狊 犲 狉)犉 犪 狀 狊 犆 犛(犛 狆 犲 犮 犝 狊 犲 狉)犞 犻 狊 犻 狋 狅 狉 犆 犛(犛 狆 犲 犮 犝 狊 犲 狉)获取每个用户狌犻犈 犈犖(犛 狆 犲 犮 犝 狊 犲 狉) 在时间片犜 犻 犿 犲 犛 狆 犪 狀内的微博集犕犅 狌犻、 关注集犉 狅 犾 犾 狅 狑 犲 狉 犆 犛(狌犻) 、 粉丝集犉 犪 狀 狊 犆 犛(狌犻)计算用户犛 狆 犲 犮 犝 狊 犲 狉与狌犻犈 犈犖(犛 狆 犲 犮 犝 狊 犲 狉) 的动态微博相似度, 记为犕犅 犛 犻 犿(犛 狆 犲 犮 犝 狊 犲 狉,狌犻)计算用户犛 狆 犲 犮 犝 狊 犲 狉与狌犻犈 犈犖(犛 狆 犲 犮 犝 狊

28、犲 狉) 的动态交互相关性, 记为犚 犆(犛 狆 犲 犮 犝 狊 犲 狉,狌犻)计 算犛 狆 犲 犮 犝 狊 犲 狉与狌犻犈 犈犖(犛 狆 犲 犮 犝 狊 犲 狉) 的 相 似 度犛 犻 犿(犛 狆 犲 犮 犝 狊 犲 狉,狌犻)按照相似度大小选取狋 狅 狆个用户, 得到相似用户集犛 犻 犿 犝 狊 犲 狉(犛 狆 犲 犮 犝 狊 犲 狉)该算法包括个步骤, 步、和比较简单, 容易实现, 步用户动态微博相似度计算、 步用户动态交互相关性和步整合各个要素的用户相似度计算是本文研究的重点, 在文章的 节、 节和 节分别介绍特定用户的相似用户发现算法的复杂度由以下个要素组成:()犜 犻 犿 犲(犆

29、狉 犪 狑 犾 犕犅) , 采集微博时间, 包括特定用 户、 关 注、 粉 丝 和 访 客类 用 户 的 博 文 采集时间;()犜 犻 犿 犲(犆 狉 犪 狑 犾 犉 狅 犾 犾 狅 狑 犲 狉) , 采集用户的关注时间, 包括特定用户、 关注、 粉丝和访客类用户的关注;()犜 犻 犿 犲(犆 狉 犪 狑 犾 犉 犪 狀 狊) , 采集用户的粉丝时间,包括特定用户、 关注、 粉丝和访客类用户的粉丝;()犜 犻 犿 犲(犕犅 犛 犻 犿(犛 狆 犲 犮 犝 狊 犲 狉,狌犻) ) , 计算用户的动态微博相似度时间;()犜 犻 犿 犲(犚 犆(犛 狆 犲 犮 犝 狊 犲 狉,狌犻) ) , 计算用

30、户的动态交互相关性时间;()犜 犻 犿 犲(犛 狅 狉 狋(犈 犈犖(犛 狆 犲 犮 犝 狊 犲 狉) ) ) , 计算用户的动态交互相关性时间因此, 算法的总复杂度可表示为犗(犜 狅 狋 犪 犾 犜 犻 犿 犲)犜 犻 犿 犲(犆 狉 犪 狑 犾 犕犅)犜 犻 犿 犲(犆 狉 犪 狑 犾 犉 狅 犾 犾 狅 狑 犲 狉)犜 犻 犿 犲(犆 狉 犪 狑 犾 犉 犪 狀 狊)犜 犻 犿 犲(犕犅 犛 犻 犿(犛 狆 犲 犮 犝 狊 犲 狉,狌犻) )犜 犻 犿 犲(犚 犆(犛 狆 犲 犮 犝 狊 犲 狉,狌犻) )犜 犻 犿 犲(犛 狅 狉 狋(犈 犈犖(犛 狆 犲 犮 犝 狊 犲 狉) ) )

31、 ()由式() 可见, 算法的复杂度主要由用户的个数决定, 即分析的用户个数越多, 算法的复杂度越高由于微博用户的关系可以层层扩展, 因此分析工作量较大, 具体实现时, 可以对分析用户的层数加以限制比如文献 选取了 个种子用户, 采集时仅扩展了层 用户动态微博相似度计算用户的动态微博相似度计算指将用户的微博按时间片进行划分, 分别计算每个时间片的微博相似度, 再采用一定的衰减策略进行累加已有方法在衡量两个用户发表微博相似度时,往往将一段时间范围内( 比如个月或者年) 的微博作为一个整体如果不考虑按时间的动态划分, 即按时间片分别计算不同时间片的用户微博相似度,期仲兆满等:微博中特定用户的相似用

32、户发现方法那么在某个时间片内有较高相似度的微博, 在面对整个时间周期时, 这种相似度很可能被淹没时间片的划分一种是采用固定的时间周期进行均匀划分, 另一种是根据用户的活跃程度等指标进行非均匀划分在计算用户的微博相似度时, 采用均匀的划分方法, 可能将属于同一话题的微博分到不同的时间片, 但这并不影响计算效果, 因为在不同的时间片微博的相似度同样可以计算, 而且不同时间片的计算结果还需进行累加因此本文采用了均匀的时间片划分方式 等人 认为时间窗口受日历等生活周期的影响, 我们借鉴此思想, 将时间周期定义为天、 周及月分别进行实验分析微博中用户和微博的动态网络如图所示图微博中用户和微博的动态网络图

33、所示的网络模型和传统二部网络不同, 添加了时间轴的动态约束用户和微博的动态网络表示为犌(犞,犈,犜)其中,犜为时间片集,犜犜,犜, ,犜犿 ;犞为用户和微博集,犞犞犜,犞犜, ,犞犜犿 ,犞犜犻犝犜犻犕犅犜犻, 其中犝犜犻,犕犅犜犻分别为时间片犜犻的用户集和微博集, 满足犝犜犻犕犅犜犻 ,犝犜犝犜犝犜犿;犈为边集,犈犈犜,犈犜, ,犈犜犿 , 是一个映射函数犈犜犻:犝犜犻犕犅犜犻, , 即犲狆 狇(狌犜犻狆,犕犅犜犻狇),狌犜犻狆在时间片犜犻发表微博犕犅犜犻狇,烅烄烆否则()用户的很多博文过于短小, 比如“ 赞了” 、 “ 好的” 、 “ 喜欢” 、 “ 期待中” 等内容我们对微博中常用的口头

34、语进行了整理, 目前整理的微博口头语词库共包括 条基于这些词库对微博内容进行过滤, 过滤掉的微博不再参与后期的特征提取及微博的相似度计算, 但可以作为用户之间的交互行为, 用于用户间的交互相关性的计算计算时间片犜犻内两个用户的微博相似度时, 将犜犻内两个用户的微博分别看作一个整体, 相当于是计算两篇文本的相似度但因为微博样本的特征稀疏, 而且话题总是由多个关联性强的词构成的, 比如“ 地震” 话题, 信息中缺少不了“ 地震” 话题的“ 时间” 、“ 地点” 、 “ 伤亡” 等关键词, 所以我们采用了互信息的方法从微博中选取最有代表性的若干个特征, 用于后期的微博相似度计算一个用户狌犼在时间片犜

35、犻发表的所有微博记为犕犅 狌犜犻犼, 基于互信息的微博特征词提取步骤如下:() 对犕犅 犛 狌犜犻犼进行分词、 过滤通用词后( 停用动词的过滤参考文献 归纳的内容) , 获取的特征词集合为犠犛犜犻犼狑犜犻犼,狑犜犻犼, ,狑犜犻犼 狓 ( 假设狓个特征词) ;() 计算两个词的互信息, 计算方法如下 :犕 犐(狑犜犻犼 狌,狑犜犻犼 狏)犳(狑犜犻犼 狌,狑犜犻犼 狏)犳(狑犜犻犼 狌)犳(狑犜犻犼 狏)犳(狑犜犻犼 狌,狑犜犻犼 狏)()其中,犳(狑犜犻犼 狌,狑犜犻犼 狏) 为在某个窗口范围内词狑犜犻犼 狌和狑犜犻犼 狏共同出现的次数由于微博比较短小, 本文将窗口定义为每条微博范围内对狓个

36、特征词, 进行两两计算得到的互信息矩阵犕 犐 犕( 对称矩阵, 同一个特征词互信息不做计算, 值设为) 为狑犜犻犼狑犜犻犼狑犜犻犼 狓狑犜犻犼犕 犐(狑犜犻犼,狑犜犻犼) 犕 犐(狑犜犻犼,狑犜犻犼 狓)狑犜犻犼犕 犐(狑犼,狑犼 狓)狑犜犻犼 狓熿燀燄燅() 从犕 犐 犕中选取互信息度大的狔个词作为犕犅 狌犜犻犼的最终特征用户狌犜犻犼的微博犕犅 狌犜犻犼可向量化表示为犓犠 狌犜犻犼 犽 狑 狌犜犻犼,狑 狌犜犻犼 , 犽 狑 狌犜犻犼,狑 狌犜犻犼 , ,犽 狑狔 狌犜犻犼,狑狔 狌犜犻犼 其中,狑犻 狌犜犻犼为特征项的权重,使用犜 犉犐 犇 犉方式计算在时间片犜犻内两个用户狌犜犻狆,狌犜犻

37、狇的微博相似度计算方法使用经典的余弦相似度计算方法, 如式()所示:犕犅 犛 犻 犿(狌犜犻狆,狌犜犻狇)犓犠 狌犜犻狆犓犠 狌犜犻狇犓犠 狌犜犻狆犓犠 狌犜犻狇()已有研究认为 , 微博用户圈子与进化聚类极为相近, 存在短时平滑性现象, 即动态网络的聚类结构在短时间内的变化是平缓的短时平滑意味着短期内的历史交互信息( 微博的评论、 转发或原创)和当前交互信息具有一定相似性, 可以将短时历史交互信息和当前交互信息综合作为当前时刻用户交计算机学报 年互相似性, 以克服时间窗口划分带来的数据稀疏或观察缺失带来的问题综合历史信息和当前信息的实现方法之一是对有限相邻时段历史信息进行衰减累计本文使用了指

38、数衰减的方法用户狌狆,狌狇微博相似度计算方法如式() 所示:犕犅 犛 犻 犿(狌狆,狌狇)犿犻(犜犻犜)犕犅 犛 犻 犿(狌犜犻狆,狌犜犻狇)()其中,犜犻犜的计算结果为时间片相差个数;为指数衰减的参数 用户动态交互相关性计算微博媒体中, 用户之间通过评论或转发的形式进行交互, 这种行为能够体现用户共同的兴趣, 反映了用户间的关联强度, 即交互性强的, 就可能进一步增加用户间的相似性用户的交互相关性理解为用户间的交互次数微博用户的动态交互网络如图所示图微博用户的动态交互网络微博用户的动态交互网络表示为犌(犞,犈,犜) ,其中,犜为时间片集,犜犜,犜, ,犜犿 ;犞为用户集,犞犝犜,犝犜, ,犝

39、犜犿 ,犝犜犝犜犝犜犿;犈为交互边集,犈犈犜,犈犜, ,犈犜犿 , 是一个映射函数犈犜犻:犝犜犻犝犜犻,狀 狌 犿 ,狀 狌 犿, 即犲狆 狇(狌犜犻狆,狌犜犻狇)狀 狌 犿,用户狌犜犻狆和狌犜犻狇在时间片犜犻的交互次数,用户狌犜犻狆和狌犜犻狇在时间片犜犻烅烄烆无交互()在时间片犜犻内两个用户狌犜犻狆,狌犜犻狇的交互相关性为用户间的交互次数, 记为犚 犆(狌犜犻狆,狌犜犻狇) ,犿个时间片的最大交互次数记为犚 犆 , 以犚 犆 为参考对用户的交互相关性进行归一化:犚 犆(狌犜犻狆,狌犜犻狇)犚 犆(狌犜犻狆,狌犜犻狇)犚 犆 ()同样的, 借鉴文献 阐述的微博用户圈子的短时平滑性现象, 在计算

40、用户动态交互相关性时,引入指数衰减来刻画这种关系用户狌狆,狌狇的交互相关性计算方法如式() 所示:犚 犆(狌狆,狌狇)犿犿犻(犜犻犜)犚 犆(狌犜犻狆,狌犜犻狇) () 用户相似度计算考虑到 用 户 的 关 注、 粉 丝 和 微 博, 计 算 用 户犛 狆 犲 犮 犝 狊 犲 狉与狌犻犈 犈犖(犛 狆 犲 犮 犝 狊 犲 狉) 的 相 似 度犛 犻 犿(犛 狆 犲 犮 犝 狊 犲 狉,狌犻)方法如式() 所示:犛 犻 犿(犛 狆 犲 犮 犝 狊 犲 狉,狌犻)犉 狅 犾 犾 狅 狑 犲 狉 犛 犻 犿(犛 狆 犲 犮 犝 狊 犲 狉,狌犻)犉 犪 狀 狊 犛 犻 犿(犛 狆 犲 犮 犝 狊 犲

41、 狉,狌犻)犕犅 犛 犻 犿(犛 狆 犲 犮 犝 狊 犲 狉,狌犻) ()其中, 关注相似度定义为犉 狅 犾 犾 狅 狑 犲 狉 犛 犻 犿(犛 狆 犲 犮 犝 狊 犲 狉,狌犻)犉 狅 犾 犾 狅 狑 犲 狉 犆 犛(犛 狆 犲 犮 犝 狊 犲 狉)犉 狅 犾 犾 狅 狑 犲 狉 犆 犛(狌犻)犉 狅 犾 犾 狅 狑 犲 狉 犆 犛(犛 狆 犲 犮 犝 狊 犲 狉)犉 狅 犾 犾 狅 狑 犲 狉 犆 犛(狌犻)( )粉丝相似度定义为犉 犪 狀 狊 犛 犻 犿(犛 狆 犲 犮 犝 狊 犲 狉,狌犻)犉 犪 狀 狊 犆 犛(犛 狆 犲 犮 犝 狊 犲 狉)犉 犪 狀 狊 犆 犛(狌犻)犉 犪 狀

42、 狊 犆 犛(犛 狆 犲 犮 犝 狊 犲 狉)犉 犪 狀 狊 犆 犛(狌犻)( )微博相似度的计算使用 节式() 和式()计算对于式() 中,和个系数的确定, 已有方法多是经验指导的由于微博用户的海量性, 发现相似用户的常用评价指标是犘狀, 即取排名前狀的相似用户, 判断是真正相似用户的比例对微博用户而言, 由于每个用户涉及的信息较杂, 包括关注、 粉丝、 微博、 交互等要素, 靠人工判断难度很大所以, 我们对犘狀进行改进, 提出了犛狀的评价指标, 即计算每种方法( 本文使用了 节介绍的种方法) 得到的前狀个相似用户的得分 节的实验评测方法各有侧重点: 方法是犛 犝犇 犅 狔 犜 犲 狓 狋使

43、用用户的背景及微博等文本信息; 方法是犛 犝犇 犅 狔 犛 犖使用用户的社交信息, 包括关注和粉丝; 方法是犛 犝犇 犅 狔 犜 犛 犖考虑了用户的文本及社交信息; 方法是犛 犝犇 犅 狔 犜 犛 犖 犞 犇( 取访客 及动态 的第个大写字母) 为本文提出的方法由于种方法在计算用户间相似度时的出发点都各有侧重, 因此, 如果发现的用户狌能够在种方法的前狀个用户中出现的比例越高( 即不同侧重点的方法都可能发现用户狌) , 可以相信, 用户狌为相似用户的可能性就越大期仲兆满等:微博中特定用户的相似用户发现方法假设有犿种评价方法, 方法犕 犲 狋 犺 狅 犱犻(犻犿)得 到 的 前狀个 相 似 用

44、户 的 集 合 为犕 犲 狋 犺 狅 犱犻狌犻,狌犻, ,狌犻 狀 , 将狌犻在每种方法得到的相似用户集出现的总次数记为犆 狅 狌 狀 狋(狌犻) , 则方法犕 犲 狋 犺 狅 犱犻的犛狀狀犼犆 狅 狌 狀 狋(狌犻 犼)该方法不需要人工干预,容易实现, 且相对客观基于犛狀的计算思想, 对每个用户而言, 目标是犛狀最大, 该问题的描述如式( ) 所示: 犛狀 ,( )本文选取了学术研究、 企业管理、 教育、 文化、 军事个领域的 个种子用户, 在实验的基础上考察、和个系数的取值范围, 详见 节的论述进一步地, 考虑到用户交互相关性对用户相似度的影响, 最终的用户犛 狆 犲 犮 犝 狊 犲 狉与

45、狌犻犈 犈犖(犛 狆 犲 犮 犝 狊 犲 狉) 的相似度计算如式( ) 所示:犛 犻 犿(犛 狆 犲 犮 犝 狊 犲 狉,狌犻)犾 狅 犵犚 犆(犛 狆 犲 犮 犝 狊 犲 狉,狌犻)犛 犻 犿(犛 狆 犲 犮 犝 狊 犲 狉,狌犻)( )其中犚 犆(犛 狆 犲 犮 犝 狊 犲 狉,狌犻) 为用户犛 狆 犲 犮 犝 狊 犲 狉和狌犻动态交互相关性, 计算方法使用 节式() 和式() , 取对数为了体现交互对最终相似度计算影响的平滑性实验及分析 实验数据目前, 没有用于微博用户相似度计算的公开语料, 研究者大多是根据需求, 自行从指定的微博上采集相关语料比如, 文献 以互联网高管领域 个用户为种

46、子, 爬行了层, 得到了关注、 粉丝用户集及他们的背景信息、 交互信息和微博集胡云等人 使用了数据堂公司提供的 个用户( 该数据是发布者随机抽取的) 进行了实验, 但这些数据仅包含用户名、 关注数、 粉丝数及微博数等基本信息, 实验时还需进一 步采集 等人 面 向 , 从个用户的社交网络出发, 随机选取了 个用户进行了数据采集与分析彭泽环等人 面向腾讯微博, 选取了两个时间点收集部分数据本文以新浪微博为例, 选取了学术研究、 企业管理、 教育、 文化、 军事个领域的 个种子用户进行实验数据的采集与分析在新浪微博搜索框中输入领域关键字进行检索, 然后点击“ 找人” 按钮, 选取了“ 个人认证”

47、及“ 普通用户” 两类用户, 使用 进行采集有些领域用户的关注或者粉丝过多, 超过几万、 甚至是上百万为了分析的方便, 对获取的用户进行了筛选,关注及粉丝数限定在 以内从每个领域中随机选取 个种子用户进行实验分析, 微博的采集时间限定在 年月日至 年月 日, 共计个月 个领域获取的认证及普通用户情况见表所示表实验选用的个领域序号领域关键字认证及普通用户数学术研究信息检索 企业管理互联网高管 教育幼儿教育 文化谍战 军事歼 目前, 新浪微博为防止他人获取用户的关注、 粉丝进行恶意关注或广告骚扰, 对非本人的关注、 粉丝的访问量进行了限制, 只能获取前页内容, 大约 个关注、 个粉丝从统计分析的角

48、度而言, 抽取 个关注和 个粉丝样本进行统计分析也是有代表性的个领域 个用户的关注、 粉丝、 访客及微博数量如表所示表 个用户的关注、 粉丝、 访客及微博数序号领域关注数粉丝数访客数微博数学术研究 企业管理 教育 文化 军事 共计 为了计算特定用户与每个关注、 粉丝及访客的相似度, 需扩展下一层采集关注、 粉丝及访客类用户的关注、 粉丝及微博同样的, 每个用户的关注和粉丝的个数都为 , 采集微博的时间限定在 年月日至 年月 日用户的微博内容一方面是原创的, 另一方面是转发评论的, 将转发评论的微博同样作为用户的微博内容, 但转发评论同一微博多次时仅算次最终获取的用于实验分析的关注类用户总数为

49、、 粉丝类用户总数为 、 微博总数为 计算机学报 年 年月 日执行完采集 几种实验方法实验选用的种方法介绍如下:() 方法:犛 犝犇 犅 狔 犜 犲 狓 狋, 基于用户的背景和微博计算用户的相似度, 类似于文献, , 介绍的方法根据新浪微博的特点, 选取的用户背景信息包括简介、 标签、 教育、 职业信息背景信息的相似度计算采用了 方法, 和式( ) 、 ( ) 相同微博的相似度计算和式() 相同, 没有按时间片划分考虑微博的动态性背景及微博相似度线性整合时的取值参考文献, , 分别为 和 () 方法:犛 犝犇 犅 狔 犛 犖, 基于关注和粉丝的社交网络计算用户的相似度, 类似于文献 , 介绍的

50、方法社交网络构建时仅利用了关注和粉丝, 没有考虑访客关注和粉丝的相似度计算采用了 方法, 和式( ) 、 ( ) 相同最终的相似度对关注和粉丝的相似度进行了线性整合, 参考文献 , 的取值, 关注相似度的权重为 , 粉丝相似度的权重为 用户间的交互相关性计算和式() 相同, 但没有考虑交互的动态性() 方法:犛 犝犇 犅 狔 犜 犛 犖, 已有的混合方法, 基于用户的文本信息和社交网络计算用户的相似度,类似于文献 介绍的方法文本信息包括微博及简介、 标签、 教育、 职业信息等背景信息, 社交网络仅利用了关注和粉丝, 没有考虑访客背景信息及微博的相似度计算和方法犛 犝犇 犅 狔 犜 犲 狓 狋相

51、同; 关注和粉丝的相似度计算和方法犛 犝犇 犅 狔 犛 犖相同() 方法:犛 犝犇 犅 狔 犜 犛 犖 犞 犇, 本文提出的混合方法该方法仅选取了用户的微博信息, 社交网络构建时利用了关注、 粉丝和访客类用户为了减少统计分析量, 对用户扩展的自我网络涉及的类用户,第层扩展时采集了关注和粉丝的基本信息及其在 年月至月发表的所有微博, 并从微博中提取出访客, 第层扩展时仅采集了关注和粉丝的用户名时间片的指数衰减参数的取值参考文献 , 计算用户相似度时, 关注、 粉丝及微博相似度的权重分别为 , , ,个参数的取值对实验结果的影响参见 节的论述时间片按周划分, 不同的时间片划分( 天、 周及月) 对

52、实验结果的影响参见 节的论述进一步地, 为验证用户间的交互性、 时间片划分以及时间衰减累加策略对本文所提方法犛 犝犇 犅 狔 犜 犛 犖 犞 犇的影响, 对犛 犝犇 犅 狔 犜 犛 犖 犞 犇进行修改, 得到方法和方法:() 方法:犛 犝犇 犅 狔 犜 犛 犖 犞 犇, 和方法不同的是没有考虑用户之间的交互性, 即用户相似度的计算使用了关注、 粉丝和微博个指标, 实验参数的设置( 包括指数衰减参数, 关注、 粉丝及微博的个系数,和) 和方法相同() 方法:犛 犝犇 犅 狔 犜 犛 犖 犞 犇, 和方法不同的是微博相似度及交互相关性计算时没有考虑按时间的衰减累加策略, 关注、 粉丝及微博的个系数

53、,和的取值和方法相同 发现相似用户的准确性比较如 节所述, 我们采用犛狀评价前种方法在计算用户相似度时的优劣要注意的是, 本文提出的方法犛 犝犇 犅 狔 犜 犛 犖 犞 犇的相似用户由于扩展到了访客类, 而这些访客在方法、 方法和方法中是无法得到的因此, 在计算犛 犝犇 犅 狔 犜 犛 犖 犞 犇的犛狀指标时, 对访客进行如下处理: 对其他种方法, 分别计算访客与指定用户的 相 似 度, 对 方 法犕 犲 狋 犺 狅 犱犼犛 犝犇 犅 狔 犜 犲 狓 狋,犛 犝犇 犅 狔 犛 犖,犛 犝犇 犅 狔 犜 犛 犖 而言, 如果访客狏 犻 狊 犻 狋 狅 狉犻的相似度值可以进入前狀, 则认为狏 犻

54、狊 犻 狋 狅 狉犻存在于犕 犲 狋 犺 狅 犱犼的相似用户集中对学 术 研 究 领 域 ( 信 息 检 索) 用 户 “ 王 利 锋 ” , 本文提出的方法犛 犝犇 犅 狔 犜 犛 犖 犞 犇得到的前 个相似用户如表所示对 个微博用户,种方法得到的平均犛狀如表所示, 趋势如图所示表方法犛 犝 犇 犅 狔 犜 犛 犖 犞 犇得到的与用户“ 王利锋犉 犪 狀 犱 狔” 相似的前 个用户排序用户名关注数粉丝数个月的微博数相似度关系 机器学习计算机视觉 七月算法问答 , 张大奎 李亚超 韧在百度 小村长 赵家平 期仲兆满等:微博中特定用户的相似用户发现方法表种方法得到的 个微博用户的犛狀领域犛狀犛

55、犝 犇 犅 狔 犜 犲 狓 狋犛 犝 犇 犅 狔 犛 犖 犛 犝 犇 犅 狔 犜 犛 犖 犛 犝 犇 犅 狔 犜 犛 犖 犞 犇学术研究 企业管理 教育 文化 军事 犛狀 图种方法得到的 个用户的平均犛狀由表和图可见, 对 个用户的平均犛狀而言, 方法犛 犝 犇 犅 狔 犜 犛 犖 犞 犇得分最高, 为 ; 方法犛 犝犇 犅 狔 犜 犛 犖的得分其次, 为 ; 方法犛 犝 犇 犅 狔 犜 犲 狓 狋得分最低, 为 在种方法中,犛 犝犇 犅 狔 犜 犛 犖与犛 犝犇 犅 狔 犜 犛 犖 犞 犇的得分都比较高, 这进一步验证了, 混合型社交网络分析的优势所在方法犛 犝犇 犅 狔 犜 犛 犖 犞 犇

56、的犛狀得分高于方法犛 犝犇 犅 狔 犜 犛 犖,这是因为犛 犝犇 犅 狔 犜 犛 犖 犞 犇引入时间的动态约束,使得发现的用户更为准确方法犛 犝犇 犅 狔 犜 犲 狓 狋仅利用了用户的背景和微博信息, 方法犛 犝犇 犅 狔 犛 犖仅使用了微博的社交网络信息, 包括关注及粉丝, 这两种方法都有一定的缺陷就犛 犝犇 犅 狔 犜 犲 狓 狋和犛 犝犇 犅 狔 犛 犖而言, 方法犛 犝犇 犅 狔 犛 犖要优于犛 犝犇 犅 狔 犜 犲 狓 狋,这也进一步验证了用户的社交信息比用户的其他信息更有利用价值对个领域而言, “ 学术研究” 和“ 军事” 两个领域得分较高, 主要原因是获取该领域用户时使用了“ 信

57、息检索” 、 “ 歼 ” 进行搜索, 关键词的范围限定比较具体, 得到种子用户的朋友圈比较窄小, 所发表的微博比较专业, 每个用户的相似用户得分比较平稳而对于另外个领域( “ 企业管理” 、 “ 教育” 和“ 文化” ) 的用户而言, 他们的朋友圈往往过大, 粉丝都可能达到几十万人, 日常所发微博也比较发散, 对相似用户的计算干扰较大这说明, 用户所属的领域范围越是狭小、 专业化程度高, 在发现相似用户时的效果越好此外, 我们对 个用户发现的 个相似用户( 每个用户取排名靠前的 个相似用户) 的活跃性进行统计, 发现在个月的时间段内, 个用户中, 以上的用户都有 次以上的转发、 评论或者发表微

58、博的行为, 只有的用户不太活跃不太活跃的用户之所以排名靠前, 原因是计算相似度时的关注、 粉丝指标得分较高微博媒体中存在的“ 冷启动” 用户可以分为两种情况: () 新用户; () 不活跃用户对新用户而言,由于关注、 粉丝、 微博及交互类信息几乎没有, 因此本文所提方法难以发现此类“ 冷启动” 用户对不活跃用户而言, 这类用户发表的微博、 与其他用户间的交互较少, 这两个属性得分较低, 如果粉丝和关注的信息量较大, 即使微博、 交互较弱, 本文所提方法也可能发现此类用户但明显的是, 本文所提方法更有利于发现微博中的活跃用户, 即经常发表微博、 有一定量的关注和粉丝、 与其他用户互动性强的用户

59、关注、 粉丝及微博的系数取值基于 节介绍的参数优化思想, 我们对个领域的 个用户在确保犛 最大的前提下, 对关注、 粉丝及微博个系数的取值范围进行了实验过程计算犛 的个核心步骤:()犛 狅 狉 狋按照计算的相似度对用户集中的用户排序;()犛 犲 犾 犲 犮 狋从排序的用户集中, 选取相似度最高的前 个用户;()犆 狅 狌 狀 狋计算 个用户在各种方法中( 本文使用了 节介绍的种方法) 的得分( 具体的得分计算论述参见 节内容)计算用户相似度时的个参数,取值分为, , , , , , , , , , , 共 种情况以犛 最大值为参考,值相差范围不大时( 本文取) , 认为,的取值都是合理的时间片

60、的选取以周为单位 个用户的,个参数取值范围, 统计结果如图所示从图可见,的取值位于区间 , 居多, 占 , 其中最多的是区间 , ;的取值位于区间 , 居多, 占 , 其中最多的是区间 , ;的取值位于区间 , 居多,占 , 最多的是区间 , 这说明, 在计算用户相似度时, 对关注、 粉丝、 微博个要素而言, 最重要的是关注, 其次是微博, 最后是粉丝在实际应用中, 在保证的情况下,的取值只要是落在这些区间, 可以认为就是合理的计算机学报 年图 个用户的,个参数取值范围 时间片划分对发现相似用户准确性的影响对获取的 年月至月的共个月的微博, 在用户动态微博相似度计算及用户动态交互相关性计算时,

61、 参考工作周期的划分原理, 我们分别以“ 天” 、 “ 周” 和“ 月” 进行时间片划分实验对本文提出的方法犛 犝犇 犅 狔 犜 犛 犖 犞 犇, 选用了个不同时间片, 得到的实验结果犛狀如表所示表不同时间片划分得到的犛狀领域天周月学术研究 企业管理 教育 文化 军事 平均 由表可见, 时间片按照“ 天” 划分得到的犛狀为 , 时间 片按 照 “ 周” 划 分 得 到 的犛狀为 , 结果相差很小, 仅为 而按照“ 月” 划分得到的犛狀为 , 由于时间周期偏长, 微博的动态相似度及交互相关性计算效果体现不够明显,实验结果犛狀差一些考虑到微博相似度计算及交互相关性计算的时间消耗, 实际应用中建议时

62、间片选取“ 周” 进行划分比较合理 交互相关性对发现相似用户准确性的影响与方法犛 犝 犇 犅 狔 犜 犛 犖 犞 犇相比,犛 犝 犇 犅 狔 犜 犛 犖 犞 犇在计算用户相似度时没有考虑用户之间的交互性,仅利用微博、 关注和粉丝个属性 种方法得到 个微博用户的犛狀如表所示期仲兆满等:微博中特定用户的相似用户发现方法表不考虑交互相关性时得到的犛狀领域犛 犝犇 犅 狔 犜 犛 犖 犞 犇犛 犝犇 犅 狔 犜 犛 犖 犞犇学术研究 企业管理 教育 文化 军事 平均 由表可见,犛 犝犇 犅 狔 犜 犛 犖 犞 犇得到的犛狀为 ,犛 犝 犇 犅 狔 犜 犛 犖 犞 犇的犛狀为 , 结果较大,为 同时发现

63、,犛 犝 犇 犅 狔 犜 犛 犖 犞 犇不如犛 犝 犇 犅 狔 犜 犛 犖的得分高,犛 犝犇 犅 狔 犜 犛 犖的得分为 在计算微博用户的相似度时, 用户之间的交互信息对改善相似度计算的效果是有较大帮助的 时间衰减对发现相似用户准确性的影响与方法犛 犝 犇 犅 狔 犜 犛 犖 犞 犇相比,犛 犝 犇 犅 狔 犜 犛 犖 犞 犇在计算用户相似度时没有采用按照时间片而进行衰减累加的策略, 用户动态微博相似度计算方法如式( ) 所示:犕犅 犛 犻 犿(狌狆,狌狇)犿犻犕犅 犛 犻 犿(狌犜犻狆,狌犜犻狇) ( )用户动态交互相关性计算如式( ) 所示:犚 犆(狌狆,狌狇)犿犿犻犚 犆(狌犜犻狆,狌犜

64、犻狇)( )两种方法得到 个微博用户的犛狀如表所示由表可见,犛 犝犇 犅 狔 犜 犛 犖 犞 犇得到的犛狀为 ,犛 犝 犇 犅 狔 犜 犛 犖 犞 犇的犛狀为 , 相差 ,效果有所下降这说明, 按照时间片进行指数衰减累加的策略对用户相似度计算是合理的表不考虑时间衰减累加时得到的犛狀领域犛 犝犇 犅 狔 犜 犛 犖 犞犇犛 犝犇 犅 狔 犜 犛 犖 犞 犇学术研究 企业管理 教育 文化 军事 平均 发现相似用户的分布比较已有方法发现的相似用户仅分布于关注和粉丝两类, 本文提出的方法犛 犝犇 犅 狔 犜 犛 犖 犞 犇发现的相似用户分布于关注、 粉丝和访客类相似用户的分布评价包括:() 关注比例狆

65、 个相似用户中关注的个数前 个相似用户 ;() 粉丝比例狆 个相似用户中粉丝的个数前 个相似用户 ;() 访客比例狆 个相似用户中访客的个数前 个相似用户 对个领域的用户,种方法得到的狆 、狆 和狆 结果如表所示表中, 发现的相似用户可能同时属于多类用户, 比如同时属于关注和粉丝,计算指标得分时, 需重复统计假设一个相似用户既是关注, 又是粉丝, 在统计关注和粉丝的分布比例时, 需各自计算次表种方法得到的相似用户的分布情况领域犛 犝犇 犅 狔 犜 犲 狓 狋狆 狆 犛 犝犇 犅 狔 犛 犖狆 狆 犛 犝犇 犅 狔 犜 犛 犖狆 狆 犛 犝犇 犅 狔 犜 犛 犖 犞犇狆 狆 狆 学术研究 企业管

66、理 教育 文化 军事 由表可见, 方法犛 犝犇 犅 狔 犜 犛 犖 犞 犇通过扩展传统的自我网络, 引入了访客类用户, 增加了获取的相似用户的多样性同时, 由于获取的用户都是按照相似度排名的, 引入访客后, 获取到了更加相似的用户对种方法而言,狆 普遍较大,犛 犝 犇 犅 狔 犜 犲 狓 狋的平均狆 ,犛 犝 犇 犅 狔 犛 犖的平均狆 ,犛 犝 犇 犅 狔 犜 犛 犖的平均狆 ,犛 犝 犇 犅 狔 犜 犛 犖 犞 犇的平均狆 , 这说明了微博的相似用户在关注类用户中比例最大对方法犛 犝犇 犅 狔 犜 犛 犖 犞 犇而言, 访客的比例( ) 稍大于粉丝的比例( )实验的过程中, 我们发现访客类

67、用户的相似度之所以能够排在前面, 主要是用户间的微博相似度比较大, 有很多用户对某个用户狌犻的微博进行了转发或者评论, 但这些用户其实并不是用户狌犻的关注或者粉丝这也进一步说明了在相似用户发现的过程中, 访客类用户利用的优势再加上有些微博( 比如新浪) 开始限制用户获取非本人的关注和粉丝的个数, 借助访客发现相似用户的思路更是值得计算机学报 年借鉴的对个领域发现的相似粉丝类用户及访客类用户而言, 由于“ 学术研究” 和“ 军事” 选取的用户领域比较狭小, “ 学术研究” 和“ 军事” 的粉丝类相似用户的比例分别为 和 , 访客类相似用户的比例分别为 和 这同样说明了, 对于领域范围较窄的用户,

68、 粉丝访客既然对某用户进行了转发评论, 表明该粉丝访客在朋友圈或者微博话题方面与此用户有较高的相似度总结社会网络是由作为节点的社会行动者及他们之间的关系构成的集合, 其研究领域总体上分为个体网及整体网两大类别整体网可以根据节点或者节点之间的联系分为多种类型, 比如朋友关系网、 组织关系网、 城市网、 战略同盟网、 产业链网等等个体网强调的是从单个节点或者连接边出发, 分析节点或者连接边本身及周围的情况比如研究一个用户的情感倾向、 兴趣爱好、 关注、 好友关系的分布、 密切交互关系的年龄特征等等本文从个体网的角度出发, 面向微博社交媒体,研究了微博中任意给定一个用户, 从中挖掘出与其相似用户的群

69、体, 以作为线索发现、 社区划分、 好友推荐等工作的基础本文在研究过程中, 所提的两个核心创新点: 访客用户的利用、 动态微博相似度及交互相关性计算, 通过与已有方法的对比, 在相似用户发现的多样性及准确性方面有了显著的改善对于该问题的研究, 我们认为如下内容还需进一步加深: () 用户微博的相似度计算, 可以考虑基于话题的微博相似度计算方法, 其核心问题是微博媒体的话题提取, 已有的 、 动量模型、 速度增长、 有意义串、 分层次聚类等技术, 需通过大规模的实 验 比 较 它 们 在 微 博 话 题 提 取 中 的 应 用 效 果;() 探寻更合理的微博用户的动态计算方法, 研究基于非均匀划

70、分、 滑动窗口等策略的微博相似度及交互相关性计算技术; () 结合应用场景, 研究可调整的微博用户相似度计算模型根据实际问题, 在用户的属性选取、 权重系数设置等方面设计不同的模型比如, 挖掘同一研究领域的用户, 用户的背景、 发表的微博等属性就比较重要; 研究关系密切的用户,用户间发表的微博、 交互行为等属性就比较重要;() 基于大数据分析技术, 对微博的自我网络进行更深层次的扩展, 以发现更多的相似用户, 进一步对数据进行统计显著性分析致谢审稿专家对本文提出了细致、 富有建设性的修改建议; 江苏金鸽网络科技有限公司为本研究提供了实验数据集在此一并致谢!参考文献 : , ,() : , ,

71、: , , () : , , , ,() : , , , , , : , , , ,() : , , , , , : , , , : , , , , , () : , , , () : , , , : , , , , : , , , , : , , , : , , , , ,() : 期仲兆满等:微博中特定用户的相似用户发现方法 , , : , , , , , () : ( )( 徐志明,李栋,刘挺等微博用户的相似性度量及其应用计算机学报, , () : ) , , , , : , , , , , () : ( )( 彭泽环,孙乐,韩先培,石贝基于排序学习的微博用户推荐中文信息学报, , ()

72、 : ) , , , , : , , : , , , () : , , , : , , () : , , , ,() : , , , , , : , , , , , () : , , ( ) , , : , , , , ,( ) : , , , : , , , , , () : ( )( 仲兆满,朱平,李存华等一种基于局部分析面向事件的查询扩展方法情报学报, , () : ) , , : : , , : , , , , : , , , , , : , , , () : ( )( 王莉,程学旗在线社会网络的动态社区发现及演化计算机学报, , () : ) , , , , , ( ) : ( )(

73、 胡云,王崇骏,吴俊等微博网络上的重叠社群发现与全局表示软件学报, , ( ) : ) , , , () : ( )( 卫冰洁,王斌面向微博搜索的时间感知的混合语言模型计算机学报, , () : )犣 犎 犗 犖 犌犣 犺 犪 狅 犕 犪 狀, , , 犎 犝犢 狌 狀, , , 犔 犐犆 狌 狀 犎 狌 犪, , , 犔 犐 犝犣 狅 狀 犵 犜 犻 犪 狀, , 计算机学报 年犅 犪 犮 犽 犵 狉 狅 狌 狀 犱 , , :() ;() ;() , , , , , , , , , , , , ( ) , ( ) ( ) , , , , , , , , : ( ) , ( ) , ( ) , ( ) , ( ) , 期仲兆满等:微博中特定用户的相似用户发现方法

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号