基于贝叶斯理论的微博“僵尸粉”识别研究

资源描述

《基于贝叶斯理论的微博“僵尸粉”识别研究》由会员分享，可在线阅读，更多相关《基于贝叶斯理论的微博“僵尸粉”识别研究（31页珍藏版）》请在金锄头文库上搜索。

1、基于贝叶斯理论的微博“僵尸粉”识别研究高中组数学个人项目II摘要随着微博迅速发展，微博“僵尸粉”（机器批量生成的恶意用户）泛滥，污染微博数据，危害网络安全，但现有识别方法大多不能有效识别僵尸粉、难以适应其更新换代. 本研究基于贝叶斯理论建立七个包含不同样本特征的微博僵尸粉识别模型，并根据ROC曲线和AUC值选出识别能力最佳的模型，最后利用MATLAB软件进行算例分析并制作用户界面. 研究分析表明：以用户头像、关注数、粉丝数和关注数的比值、关注数和微博数的比值为样本特征的僵尸粉识别模型识别能力最佳，当概率阈值为0. 7时，其召回率和准确率分别达到92. 37%和98. 37%，识别效果良好

2、. 关键词微博“僵尸粉”，贝叶斯理论，识别模型目录摘要I1. 前言11.1 课题由来及意义11.2 相关研究现况21.3 贝叶斯理论简介22. 模型部分32.1 模型符号说明32.2 模型假设32.3 基于贝叶斯理论的识别模型42.4 基于最小风险的概率阈值选取52.5 模型评价指标72.5.1 ROC曲线和AUC值72.5.2 召回率、准确率和值83. 算例分析83.1 基于ROC曲线和AUC值的模型识别能力评价93.2 模型检验114. 用户界面制作125. 结论与展望145.1 结论145.2 展望14致谢16参考文献17附录181. 前言1.1 课题由来及意义随着互联网以及信息时

3、代的发展，微博（MicroBlog简称）已成为网络社交平台中炙手可热的焦点，截止2013年3月，仅新浪门户下的微博注册用户就已超过5亿. 微博作为用户即时分享交流的平台，部分企业营销的新路径，社会学等研究的重要依据，对于网络生活、经济发展和科学研究有着重大影响. 在微博中，粉丝是对某一博主保持持续关注的群体，粉丝数的增加使得博主的影响力逐步扩大，由此引发了粉丝数量的竞争和一场虚假粉丝（即僵尸粉）的买卖风波1. 僵尸粉是由计算机程序批量生成的恶意注册用户，它们有的以增加特定用户的粉丝数为目的，有的以散布广告信息为目的，其行为均由程序操控，不具有人的情感. 僵尸粉带来的虚假关注度大大减弱了微博平台

4、信息的可信度，影响了微博营销的公正诚信，增加了科学研究中数据采集过滤的难度，阻碍了微博这一新型社交平台的发展. 对于僵尸粉的泛滥新浪微博官方已采取相关措施2，过滤了部分僵尸粉. 然而“上有政策，下有对策”，从开始时“无头像无微博无粉丝”的低级僵尸，到如今逼近真实用户的高级僵尸，僵尸粉也在不断更新升级. 一些剔除僵尸粉的应用软件也应运而生3，但它们仅仅以简单的硬性标准过滤去一些不活跃的粉丝用户，对稍高级的僵尸粉依然束手无策，且很可能将新注册的用户误判为僵尸粉. 根据对淘宝“刷粉”店铺和卖家的调查，目前新浪门户关注型僵尸粉1大致分为四个级别：低级僵尸粉（一般无头像、无粉丝、无微博，现大多已被新浪官

5、方屏蔽），初级粉（一般有头像，无粉丝，无微博，部分可被新浪官方屏蔽），高级粉（有头像，有粉丝，有微博，新浪官方无法识别）和顶级粉（接近真实用户，且有部分“微博达人”新浪门户对活跃用户的奖励机制）. 本研究基于贝叶斯理论建立微博僵尸粉识别模型，通过大量实际样本数据学习僵尸粉（主要针对初级粉和高级粉）和真实用户的基本特征，并投入实际的识别应用，具有较好的理论和实际应用意义. 1.2 相关研究现况针对僵尸粉的泛滥，微博官方与非官方都采取了一定措施进行过滤. 但现有方法仅能除去部分低级的僵尸粉，且很容易对新注册的真实用户造成误判. 僵尸粉问题也引起一些学者的关注，并纷纷进行探讨. 文献1对僵尸粉的概念

6、和基本类型进行了梳理，分析他们的行为特征，并提出基本识别方法，为微博僵尸粉的识别和清理奠定基础. 文献4根据微博用户存在的形式和用户间关系的特征，提出了一种降低僵尸粉影响的方法. 文献5提出一种基于微博注册用户名特征提取的智能分类方法，准确率达92%，但它对除用户名外的信息没有很好地利用. 贝叶斯理论是统计学决策方法的基础之一，通过采样，修正先验信息来减少事物的不确定性6. 它因具有较强的信息融合能力而广泛应用于分类、预测、决策等领域. 其中，在垃圾邮件过滤中贝叶斯方法表现出了很好的效果，较其他方法有较大的优势7. 综上所述，目前缺少有效识别僵尸粉的方法，本文将基于贝叶斯理论建立微博僵尸粉识别

7、模型，并通过算例分析来验证模型的有效性. 1.3 贝叶斯理论简介6贝叶斯理论是统计学决策方法的基础之一，它通过采样，不断修正先验信息，从而减少事物的不确定性，在此基础上制定最优决策. 它不仅仅承认和利用已有的知识，甚至包括主观的判断和直觉，而且它主张利用客观的采样信息修改并丰富已有的知识，因此贝叶斯统计推断过程类似于成人的学习过程，即知识的综合与更新过程. 假设个事件是互斥的，为另一给定事件，贝叶斯定统计推断的表达式为： (1)其中，表示事件的先验概率；表示事件在事件发生的条件下发生的概率，称为似然概率，通常表示采样信息；表示事件发生的概率，且；表示事件发生的后验概率，它综合了先验概率和似然概

8、率（采样信息）. 2. 模型部分由于僵尸粉的产生由机器操控，且具有一定的目的性，它们的特征与真实用户有着本质的区别. 本文作者在观察统计大量僵尸粉与真实用户的基本信息（头像、关注数、粉丝数、微博数）后，发现僵尸粉与真实用户在头像、关注数、粉丝数和关注数的比值等方面有较大的差异. 文献1通过数据分析得出两类用户间，关注数和微博数的比值、微博数和粉丝数的比值等特征参数有明显的区别. 因此，从用户头像、关注数、粉丝数和关注数的比值、关注数和微博数的比值、微博数和粉丝数的比值这五项特征中选取部分或全部作为样本特征，建立7个基于贝叶斯理论的识别模型. 用ROC曲线和AUC值选出识别能力最佳的模型并检验其

9、识别效果. 2.1 模型符号说明（1）表示真实用户的样本集，表示僵尸粉的样本集. （2）将用户头像分为类，分别用表示；（3）将用户关注数分为类，分别用表示；（4）将用户粉丝数和关注数的比值分为类，用表示；（5）将用户关注数和微博数的比值分为类，用表示；（6）将用户微博数和粉丝数的比值分为类，用表示. 2.2 模型假设基于新浪微博平台的样本对用户头像、关注数、粉丝数和关注数的比值、关注数和微博数的比值、微博数和粉丝数的比值这五项特征进行相关度分析，其两两之间的相关度如表1所示. 表1：相关度矩阵头像关注数粉丝数和关注数的比值关注数和微博数的比值微博数和粉丝数的比值头像1. 0000-0. 332

10、80. 06410. 17190. 0305关注数-0. 33281. 0000-0. 0632-0. 16700. 1074粉丝数和关注数的比值0. 0641-0. 06321. 0000-0. 0166-0. 0365关注数和微博数的比值0. 1719-0. 1670-0. 01661. 0000-0. 1863微博数和粉丝数的比值0. 03050. 1074-0. 0365-0. 18631. 0000由表1可知：用户头像、关注数、粉丝数和关注数的比值、关注数和微博数的比值、微博数和粉丝数的比值这五项特征两两相关度绝对值大多不超过0.2，仅头像和关注数的相关度达到-0.3328，故假设它

11、们均互相独立. 2.3 基于贝叶斯理论的识别模型根据贝叶斯理论，一个样本特征为的未知用户属于僵尸粉和真实用户的后验概率分别为: (2) (3)其中，分别为该用户属于僵尸粉、真实用户的先验概率；分别为该用户属于僵尸粉、真实用户的似然概率. 选取不同的样本特征建立七个僵尸粉识别模型，其中：模型一的样本特征包括用户头像、关注数、粉丝数和关注数的比值；模型二的样本特征包括用户头像、关注数、关注数和微博数的比值；模型三的样本特征包括用户头像、关注数、微博数和粉丝数的比值；模型四的样本特征包括用户头像、关注数、粉丝数和关注数的比值、关注数和微博数的比值；模型五的样本特征包括用户头像、关注数、粉丝数和关注数

12、的比值、微博数和粉丝数的比值；模型六的样本特征包括用户头像、关注数、关注数和微博数的比值、微博数和粉丝数的比值；模型七的样本特征包括用户头像、关注数、粉丝数和关注数的比值、关注数和微博数的比值、微博数和粉丝数的比值. 在模型一中，对某一样本特征为的未知用户，根据假设，用户头像、关注数、粉丝数和关注数的比值这三个特征相互独立，故： (4)同理： (5)这里，与分别表示僵尸粉和真实用户中头像分类为的概率；与分别表示僵尸粉和真实用户中关注数分类为的概率；与分别表示僵尸粉和真实用户中粉丝数和关注数的比值分类为的概率. 令式(2)中，将式(4)、式(5)代入式(2)和式(3)中即可得出该用户属于僵尸粉的

13、后验概率和该用户属于真实用户的后验概率. 类似地，在模型二、模型三、模型四、模型五、模型六、模型七中可得到某未知用户属于僵尸粉的后验概率与其属于真实用户的后验概率七个模型仅样本特征不同，其计算方法均相同. 2.4 基于最小风险的概率阈值选取8在基于贝叶斯理论的模型中，计算出某未知用户属于僵尸粉的后验概率后，还需要决策是否将该用户判定为僵尸粉. 这里采用概率阈值的方法. 当某样本特征为的未知用户属于僵尸粉的后验概率不小于某一概率阈值时，将其判定为僵尸粉. 以下根据最小风险原则确定僵尸粉识别的概率阈值. 对于每一次判定，人们总要承受其错判可能带来的损失，并希望这个损失最小. 因此，引入损失因子的概

14、念. 记将僵尸粉误判为真实用户的损失因子为，将真实用户误判为僵尸粉的损失因子为，且令，. (6)由于正确的判定不需要承担损失，故将特征为的未知用户判定为僵尸粉的期望损失 (7)同理，将特征为的未知用户判定为真实用户的期望损失 (8)当 (9)时，该用户判定为僵尸粉的期望损失小于将其判断为真实用户的期望损失，根据最小风险的原则，应将其判定为僵尸粉. 又式(2)和式(3)： (10)将式(6)、式(7)、式(8)和式(10)代入式(9)中，可得当时，应将该特征为未知用户判定为僵尸粉. 因而在数值上即为概率阈值. 即表明使用者认为两种误判造成的损失一样大；越大，即越大，表明使用者越不能接受将真实用户误判为僵尸粉的错误；越小，即越小，表明使用者越不能接受将僵尸粉误判为真实用户的错误. 2.5 模型评价指标9为选出以上七个微博僵尸粉识别模型中识别能力最佳的模型，引入ROC曲线（Receiver Operating Characteristic Curve）和AUC（Area Under the ROC Curve）值10-11；并引入召回率（Recall）、准确率（Precision）和值三个评价指标以检验该最佳模型的识别效果. 假设某组未知用户识别情况如表2所示. 表2：未知用户识

展开阅读全文