基于时间密集性的推荐系统攻击检测

上传人:ji****72 文档编号:46420168 上传时间:2018-06-26 格式:PDF 页数:9 大小:420.71KB
返回 下载 相关 举报
基于时间密集性的推荐系统攻击检测_第1页
第1页 / 共9页
基于时间密集性的推荐系统攻击检测_第2页
第2页 / 共9页
基于时间密集性的推荐系统攻击检测_第3页
第3页 / 共9页
基于时间密集性的推荐系统攻击检测_第4页
第4页 / 共9页
基于时间密集性的推荐系统攻击检测_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《基于时间密集性的推荐系统攻击检测》由会员分享,可在线阅读,更多相关《基于时间密集性的推荐系统攻击检测(9页珍藏版)》请在金锄头文库上搜索。

1、基于时间密集性的推荐系统攻击检测 1 基于时间密集性的推荐系统攻击检测 赵欣 寇纲 邬文帅 卢艳群 电子科技大学经济与管理学院 成都 610054 摘要:协同过滤作为最核心、最典型的个性化推荐技术之一,已经在诸多领域中取得了成功。但最近的研 究表明协同过滤的推荐结果依赖于用户概貌信息,因而容易受到人为的攻击与破坏,从而使结果 产生偏差。针对这个问题,本论文在前人的研究基础上,从用户的评分时间分布与评分数据分布 着手,提出一种基于时间密集性的推荐系统攻击检测方法来检测系统中的攻击行为,最后通过一 个实例验证了该方法的有效性与实用性。 关键字:推荐系统;协同过滤;攻击检测;评分时间分布;评分数据分

2、布 Attack detection of recommendation system based on time denseness Kou gang, Zhao xin. Wu wenshuai, Lu yanqun School of Management and Economics of UESTC 610054 Abstract: As one of the core and the most typical personalized recommendation system, collaborative filtering technology has been successf

3、ully used in many fields. However, recent researches have identified that the results of collaborative filtering recommendation system depend on user profile information so it is vulnerable to man- made attacks and destructions which result in unreliable recommendations. In order to solve this probl

4、em, this paper will try to detect the potential attacks through analyzing the distributions of users rating time and rating scores based on previous studies, thus propose a method called attack detection of recommendation system based on time denseness. Finally, a real example shows the validity and

5、 practicability of the method. Key words: recommendation system; collaborative filtering; attack detection; distribution of rating time; distribution of rating data 1 引言 Web2.0 技术的发展促使互联网成为世界上规 模最大的公共数据源,该数据源拥有数量庞大的数 据量,且这个数字还在以指数规律迅猛地增长和扩 展6。面对海量的网络数据,人们往往要耗费大量 的时间来寻找对自己有用或自己感兴趣的信息,这 种信息超过个人或系统所能接受

6、、处理或利用的范 围的问题就被称为信息过载问题。推荐系统 (recommendation system)作为当前解决信息过载问 题,依据用户的偏好帮助用户快速搜索到自己感兴 趣的信息的技术,主要有两种算法:一种是基于内 容(Content_based Filtering)的信息过滤技术, 一种是 协同过滤(Collaborative Filtering)技术,其中又以后 者为核心。 作为推荐系统最成熟的技术之一,协同过滤已 经被广泛的应用于电子商务,成为电子商务系统中 最关键的组成部分。在长期的应用实践过程中,协 同过滤技术展现了许多优点,比如新颖性、自主性、创造性等。但是随着站点结构、内容复

7、杂度和用户 人数的不断增加,协同过滤技术也暴露了很多缺 点,比如安全性、稀疏性以及鲁棒性问题16。近年 来出现了多次人为攻击推荐系统的事件。2001 年 6 月 sony Pictures 承认利用伪造电影评论的手法向用 户推荐许多新发行的电影18;2002 年,Amazon 公 司接到投诉后发现网站在推荐一本基督教方面的 名著时还会一起推荐一本性方面的书籍,经过调查 发现,并不是大多数顾客一起购买了这两本书,相 反地,是不良人员使用欺骗手段导致的推荐结果 19; 2011 年 4 月,全球最大的电子商务网站 阿里巴巴因为该系统中存在的一千余名欺诈供应商 而给顾客造成了超过 170 万美元的损

8、失。事实上, 在电子商务推荐系统中,一些不法用户为了维护自 身利益,会向推荐系统中注入大量的伪造评分数据 进行攻击,人为干预算法的预测结果,这种向推荐 系统注入虚假用户概貌信息的行为就被称为欺诈 攻击行为(shilling attack)。随着推荐系统核心技术 协同过滤技术越来越广泛的使用,其安全性问基于时间密集性的推荐系统攻击检测 2 题已经引起了各国研究人员的高度重视。如何提高 推荐系统的安全性和稳健性成为影响推荐系统能 否成功的关键因素。 围绕推荐系统的攻击检测问题,针对不同的推 荐系统攻击模型,各国学者进行了相关研究,提出 了许多攻击检测算法。比如 sheng Zhang 等人提出 基

9、于时间序列的攻击检测方法,认为攻击项目的评 分数据会随着时间的变动呈现某种特殊的统计分 布规律1;徐翔等人分析了基于奇异值分解(SVD) 的协同算法的攻击行为2;张强等提出了基于信任 的检测模型,使用统计学的方法来解释攻击用户的 概貌特征7;袁传思等提出了一种基于用户信任的 攻击检测防御模型,通过用户对系统推荐项目的反 馈情况与其邻居用户对该项目的推荐分进行分析 评判,从而引入信任度机制,以达到降低攻击用户 对推荐系统的影响的目的8。 目前已有的大多数攻击检测方法局限于分析 用户评分数据的分布,而没有对用户评分行为发生 的时间分布给予高度的重视。张付志等提出了时间 集中性的概念,将其引入到攻击

10、检测中,提出一种 基于正态云模型和时间集中性的可疑评分度量方 法,并在此基础上给出了一种基于攻击检测的用户 可信度计算方法4。这种方法虽然能够较好地检测 出推荐系统中的攻击行为,但是算法的模型过于复 杂,因而限制了该方法在实际应用中的可操作性。 本论文利用攻击用户与正常用户在评分时间分布 上的差异,借鉴时间集中性的概念,结合统计学的 相关理论从用户的评分时间分布与评分数据分布 着手来检测推荐系统中的攻击行为。具体的研究思 路如图 1 所示。 图中输入的用户评分数据包括用户 ID、项目 ID、评分值和时间戳。 在本文的研究思路中,首先输入用户评分数据,提取每个用户的评分时间戳,依照统计学判断 离

11、群点的原理,筛选出评分时间分布具有密集性特 征的用户作为可疑用户,即该用户可视为潜在的攻 击者。为了排除前面分析中可能存在的个别正常用 户,采用基础检测模型对可疑用户的评分数据分布 进行分析,如果评分数据的分布异常,则从整个用 户数据集中删除该用户,然后将剩下的用户作为可 信任用户存入数据库。最后,依据传统的协同过滤 算法,采用距离度量来衡量用户之间的相似度,找 出与目标用户最相似的 N 个近邻用户,进而利用近 邻用户的评分值来预测目标用户对尚未评价过的 项目的评分值,根据预测值的大小,为目标用户产 生推荐列表。 论文的余下结构如下所述:第二部分主要介绍 协同过滤算法;第三部分介绍推荐系统攻击

12、模型和 检测模型;第四部分重点介绍本论文提出的算法; 第五部分用实例验证该方法的有效性与实用性;最 后对本论文进行总结并提出未来的研究展望。 2 协同过滤算法 协同过滤技术是目前发展最为成熟,应用最为 广泛的个性化推荐系统,其算法主要有三类:基于 用户(user- based)的算法、基于项目(item- based)的算 法和基于模型(model- based)的算法,当前主要使用 的是基于用户的算法。基于用户的协同过滤算法为 一个需要推荐服务的目标用户寻找最近邻居集 (nearest neighbor)。根据用户的历史评分数据,利用 距离度量方法来衡量其他用户与目标用户之间的 相似程度,然

13、后依照相似度的大小进行排序,选择 top- N 邻居作为目标用户的邻居用户集,最后根据 这些用户对某个目标用户尚未评价过的项目的评 分来预测该用户对此项目的偏好程度3,4,8。 基于时间密集性的推荐系统攻击检测 3 输入用户评分数据 提取每个用户的评分时间戳 评分时间分布 是否密集 可疑用户数据 库 是 提取用户的评分值 评分数据分 布是否异常 否 否 正常用户数据库 删除该用户 是 协同过滤算法 图 1- 1 研究思路 具体而言,基于用户的协同过滤算法的主要计 算步骤如下所述: 计算各用户与目标用户之间的相似程度:目标 用户总是倾向于选择与他具有相同兴趣爱好的用 户所推荐的项目,因此,首先需

14、要找到目标用户的 topN最近邻居集。当前,衡量用户之间的相似 程度的距离度量方法主要有 3 种:余弦相似性、修 正的余弦相似性和相关相似性。 余弦相似性: *( ,)cos( ,)ijsim i jij ij=rrr r rr (2- 1) 其中,向量ir ,jr 分别表示是用户i和用户j在 n维项目空间上的评分,分子为两个用户评分向量 的内积,分母为两个用户向量模的乘积。 皮尔逊相关相似性: ,22 ,()*()(, ) () *()ijijiji tij tjt Ii tij tjt It IRRRRsimi j RRRR= (2- 2) 其中,ijI表示用户i和用户j共同评价过的项 目

15、的集合,, i tR、, j tR分别表示用户i和用户j对项目t的评分,iR、jR分别表示用户i和用户j对项 目 t 的平均评分。 修正的余弦相似性: ,22 ,()*()(, ) () *()ijiji tij tjt Ii tij tjt It IRRRRsimi j RRRR= (2- 3) 其中,ijI表示用户i和用户j共同评价过的项 目的集合,iI、jI分别表示用户i和用户j评价过的项目的集合。 以上三种相似度度量方法各有优劣之处。使用 余弦相似度度量方法计算项目之间的相似度没有 考虑不同用户的评分尺度问题;修正的余弦相似性 则假设目标用户对尚未评分的项目的喜好程度相 同,这是不符合

16、实际情况的;皮尔逊相关相似性则 不能较好地适用于用户数据极端稀疏的情形。本论 文实例验证部分采用的是目前使用最为广泛的皮 尔逊相关相似性的距离度量方法。 最近邻查询:将相似度按照由大到小的顺序排 列,选择前N个用户作为目标用户的topN邻居集; 为目标用户产生推荐列表:运用目标用户的 topN邻居集的评分数据来预测目标用户对尚未基于时间密集性的推荐系统攻击检测 4 评价的项目的评分,进而根据预测评分值的大小产 生推荐列表。评分预测公式如下所示: , , ,()u vv ivv Nu iu u vv NsimRRpRsim=+ (2- 1) 其中,,u vsim表示用户u与用户v之间的相似 性,, v iR表示用户v对项目i的评分,uR和vR分别 表示用户u和用户v对项目的平均评分。 3 推荐系统攻击模型与检测模型 推荐系统攻击是指攻击者利用正常用户的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号