基于时间密集性的推荐系统攻击检测

资源描述

《基于时间密集性的推荐系统攻击检测》由会员分享，可在线阅读，更多相关《基于时间密集性的推荐系统攻击检测（9页珍藏版）》请在金锄头文库上搜索。

1、基于时间密集性的推荐系统攻击检测 1 基于时间密集性的推荐系统攻击检测赵欣寇纲邬文帅卢艳群电子科技大学经济与管理学院成都 610054 摘要：协同过滤作为最核心、最典型的个性化推荐技术之一，已经在诸多领域中取得了成功。但最近的研究表明协同过滤的推荐结果依赖于用户概貌信息，因而容易受到人为的攻击与破坏，从而使结果产生偏差。针对这个问题，本论文在前人的研究基础上，从用户的评分时间分布与评分数据分布着手，提出一种基于时间密集性的推荐系统攻击检测方法来检测系统中的攻击行为，最后通过一个实例验证了该方法的有效性与实用性。关键字：推荐系统；协同过滤；攻击检测；评分时间分布；评分数据分

2、布 Attack detection of recommendation system based on time denseness Kou gang, Zhao xin. Wu wenshuai, Lu yanqun School of Management and Economics of UESTC 610054 Abstract: As one of the core and the most typical personalized recommendation system, collaborative filtering technology has been successf

3、ully used in many fields. However, recent researches have identified that the results of collaborative filtering recommendation system depend on user profile information so it is vulnerable to man- made attacks and destructions which result in unreliable recommendations. In order to solve this probl

4、em, this paper will try to detect the potential attacks through analyzing the distributions of users rating time and rating scores based on previous studies, thus propose a method called attack detection of recommendation system based on time denseness. Finally, a real example shows the validity and

5、 practicability of the method. Key words: recommendation system; collaborative filtering; attack detection; distribution of rating time; distribution of rating data 1 引言 Web2.0 技术的发展促使互联网成为世界上规模最大的公共数据源，该数据源拥有数量庞大的数据量，且这个数字还在以指数规律迅猛地增长和扩展6。面对海量的网络数据，人们往往要耗费大量的时间来寻找对自己有用或自己感兴趣的信息，这种信息超过个人或系统所能接受

6、、处理或利用的范围的问题就被称为信息过载问题。推荐系统 (recommendation system)作为当前解决信息过载问题，依据用户的偏好帮助用户快速搜索到自己感兴趣的信息的技术，主要有两种算法：一种是基于内容(Content_based Filtering)的信息过滤技术，一种是协同过滤(Collaborative Filtering)技术，其中又以后者为核心。作为推荐系统最成熟的技术之一，协同过滤已经被广泛的应用于电子商务，成为电子商务系统中最关键的组成部分。在长期的应用实践过程中，协同过滤技术展现了许多优点，比如新颖性、自主性、创造性等。但是随着站点结构、内容复

7、杂度和用户人数的不断增加，协同过滤技术也暴露了很多缺点，比如安全性、稀疏性以及鲁棒性问题16。近年来出现了多次人为攻击推荐系统的事件。2001 年 6 月 sony Pictures 承认利用伪造电影评论的手法向用户推荐许多新发行的电影18；2002 年，Amazon 公司接到投诉后发现网站在推荐一本基督教方面的名著时还会一起推荐一本性方面的书籍，经过调查发现，并不是大多数顾客一起购买了这两本书，相反地，是不良人员使用欺骗手段导致的推荐结果 19； 2011 年 4 月，全球最大的电子商务网站阿里巴巴因为该系统中存在的一千余名欺诈供应商而给顾客造成了超过 170 万美元的损

8、失。事实上，在电子商务推荐系统中，一些不法用户为了维护自身利益，会向推荐系统中注入大量的伪造评分数据进行攻击，人为干预算法的预测结果，这种向推荐系统注入虚假用户概貌信息的行为就被称为欺诈攻击行为(shilling attack)。随着推荐系统核心技术协同过滤技术越来越广泛的使用，其安全性问基于时间密集性的推荐系统攻击检测 2 题已经引起了各国研究人员的高度重视。如何提高推荐系统的安全性和稳健性成为影响推荐系统能否成功的关键因素。围绕推荐系统的攻击检测问题，针对不同的推荐系统攻击模型，各国学者进行了相关研究，提出了许多攻击检测算法。比如 sheng Zhang 等人提出基

9、于时间序列的攻击检测方法，认为攻击项目的评分数据会随着时间的变动呈现某种特殊的统计分布规律1；徐翔等人分析了基于奇异值分解(SVD) 的协同算法的攻击行为2；张强等提出了基于信任的检测模型，使用统计学的方法来解释攻击用户的概貌特征7；袁传思等提出了一种基于用户信任的攻击检测防御模型，通过用户对系统推荐项目的反馈情况与其邻居用户对该项目的推荐分进行分析评判，从而引入信任度机制，以达到降低攻击用户对推荐系统的影响的目的8。目前已有的大多数攻击检测方法局限于分析用户评分数据的分布，而没有对用户评分行为发生的时间分布给予高度的重视。张付志等提出了时间集中性的概念，将其引入到攻击

10、检测中，提出一种基于正态云模型和时间集中性的可疑评分度量方法，并在此基础上给出了一种基于攻击检测的用户可信度计算方法4。这种方法虽然能够较好地检测出推荐系统中的攻击行为，但是算法的模型过于复杂，因而限制了该方法在实际应用中的可操作性。本论文利用攻击用户与正常用户在评分时间分布上的差异，借鉴时间集中性的概念，结合统计学的相关理论从用户的评分时间分布与评分数据分布着手来检测推荐系统中的攻击行为。具体的研究思路如图 1 所示。图中输入的用户评分数据包括用户 ID、项目 ID、评分值和时间戳。在本文的研究思路中，首先输入用户评分数据，提取每个用户的评分时间戳，依照统计学判断离

11、群点的原理，筛选出评分时间分布具有密集性特征的用户作为可疑用户，即该用户可视为潜在的攻击者。为了排除前面分析中可能存在的个别正常用户，采用基础检测模型对可疑用户的评分数据分布进行分析，如果评分数据的分布异常，则从整个用户数据集中删除该用户，然后将剩下的用户作为可信任用户存入数据库。最后，依据传统的协同过滤算法，采用距离度量来衡量用户之间的相似度，找出与目标用户最相似的 N 个近邻用户，进而利用近邻用户的评分值来预测目标用户对尚未评价过的项目的评分值，根据预测值的大小，为目标用户产生推荐列表。论文的余下结构如下所述：第二部分主要介绍协同过滤算法；第三部分介绍推荐系统攻击

12、模型和检测模型；第四部分重点介绍本论文提出的算法；第五部分用实例验证该方法的有效性与实用性；最后对本论文进行总结并提出未来的研究展望。 2 协同过滤算法协同过滤技术是目前发展最为成熟，应用最为广泛的个性化推荐系统，其算法主要有三类：基于用户(user- based)的算法、基于项目(item- based)的算法和基于模型(model- based)的算法，当前主要使用的是基于用户的算法。基于用户的协同过滤算法为一个需要推荐服务的目标用户寻找最近邻居集 (nearest neighbor)。根据用户的历史评分数据，利用距离度量方法来衡量其他用户与目标用户之间的相似程度，然

13、后依照相似度的大小进行排序，选择 top- N 邻居作为目标用户的邻居用户集，最后根据这些用户对某个目标用户尚未评价过的项目的评分来预测该用户对此项目的偏好程度3,4,8。基于时间密集性的推荐系统攻击检测 3 输入用户评分数据提取每个用户的评分时间戳评分时间分布是否密集可疑用户数据库是提取用户的评分值评分数据分布是否异常否否正常用户数据库删除该用户是协同过滤算法图 1- 1 研究思路具体而言，基于用户的协同过滤算法的主要计算步骤如下所述：计算各用户与目标用户之间的相似程度：目标用户总是倾向于选择与他具有相同兴趣爱好的用户所推荐的项目，因此，首先需

14、要找到目标用户的 topN最近邻居集。当前，衡量用户之间的相似程度的距离度量方法主要有 3 种：余弦相似性、修正的余弦相似性和相关相似性。余弦相似性： *( ,)cos( ,)ijsim i jij ij=rrr r rr (2- 1) 其中，向量ir ，jr 分别表示是用户i和用户j在 n维项目空间上的评分，分子为两个用户评分向量的内积，分母为两个用户向量模的乘积。皮尔逊相关相似性： ,22 ,()*()(, ) () *()ijijiji tij tjt Ii tij tjt It IRRRRsimi j RRRR= (2- 2) 其中，ijI表示用户i和用户j共同评价过的项目

15、的集合，, i tR、, j tR分别表示用户i和用户j对项目t的评分，iR、jR分别表示用户i和用户j对项目 t 的平均评分。修正的余弦相似性： ,22 ,()*()(, ) () *()ijiji tij tjt Ii tij tjt It IRRRRsimi j RRRR= (2- 3) 其中，ijI表示用户i和用户j共同评价过的项目的集合，iI、jI分别表示用户i和用户j评价过的项目的集合。以上三种相似度度量方法各有优劣之处。使用余弦相似度度量方法计算项目之间的相似度没有考虑不同用户的评分尺度问题；修正的余弦相似性则假设目标用户对尚未评分的项目的喜好程度相同，这是不符合

16、实际情况的；皮尔逊相关相似性则不能较好地适用于用户数据极端稀疏的情形。本论文实例验证部分采用的是目前使用最为广泛的皮尔逊相关相似性的距离度量方法。最近邻查询：将相似度按照由大到小的顺序排列，选择前N个用户作为目标用户的topN邻居集；为目标用户产生推荐列表：运用目标用户的 topN邻居集的评分数据来预测目标用户对尚未基于时间密集性的推荐系统攻击检测 4 评价的项目的评分，进而根据预测评分值的大小产生推荐列表。评分预测公式如下所示： , , ,()u vv ivv Nu iu u vv NsimRRpRsim=+ （2- 1）其中，,u vsim表示用户u与用户v之间的相似性，, v iR表示用户v对项目i的评分，uR和vR分别表示用户u和用户v对项目的平均评分。 3 推荐系统攻击模型与检测模型推荐系统攻击是指攻击者利用正常用户的

展开阅读全文