基于hadoop的网络用户信用度评估模型研究

上传人:小** 文档编号:34074377 上传时间:2018-02-20 格式:DOC 页数:11 大小:127KB
返回 下载 相关 举报
基于hadoop的网络用户信用度评估模型研究_第1页
第1页 / 共11页
基于hadoop的网络用户信用度评估模型研究_第2页
第2页 / 共11页
基于hadoop的网络用户信用度评估模型研究_第3页
第3页 / 共11页
基于hadoop的网络用户信用度评估模型研究_第4页
第4页 / 共11页
基于hadoop的网络用户信用度评估模型研究_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《基于hadoop的网络用户信用度评估模型研究》由会员分享,可在线阅读,更多相关《基于hadoop的网络用户信用度评估模型研究(11页珍藏版)》请在金锄头文库上搜索。

1、基于 HADOOP 的网络用户信用度评估模型研究 杨亦松 杨大利 北京信息科技大学计算机学院 摘 要: 针对开放网络环境下海量网络用户的信用度评估问题, 研究了 HADOOP 平台下, 应用改进的 D-S 证据理论算法对网络用户进行信用度评估。由于网络证据间存在冲突且数量巨大, 通过分析选取改进的 D-S 证据理论算法处理冲突证据, 计算网络用户信用度, 并构建 Hadoop 并行计算平台, 提高计算效率。实验表明改进的 D-S 证据理论可以应用到网络用户信用度评估领域, 能够有效处理网络证据冲突, 区分网络用户信用度。HADOOP 并行计算平台大幅降低了计算时间。关键词: 信任度评估; D-

2、S 证据理论; 大数据处理 HADOOP; 冲突处理; 作者简介:杨亦松, 男, 硕士研究生;作者简介:杨大利, 男, 博士, 副教授。收稿日期:2017-07-20基金:国家自然科学基金资助项目 (F010203) Research on evaluation model of network user credit based on HADOOPYANG Yisong YANG Dali Computer School, Beijing Information Science & Technology University; Abstract: To solve the problem o

3、f credit evaluation of massive network user in open network environment, this paper studies the use of improved D-S evidence theory in HADOOP platform to evaluate network user credit with Multi-dimensional evidence. The improved D-S evidence theory which is suitable for the evaluation of network use

4、r credit is analyzed and selected to deal with conflicting evidence. The improved D-S evidence theory algorithm is expressed on the Hadoop platform. The experiment shows thatthe improved D-S evidence theory can be applied to the network user credit evaluation field. It can effectively deal with the

5、conflict of network evidence and evaluate the user credit.The HADOOP parallel computing platform greatly reduces the time to process massive network evidence.Keyword: trust evaluation; D-S evidence theory; HADOOP; conflict handling; Received: 2017-07-200 引言近些年, 随着互联网的高速发展, 隶属于不同机构不同区域的网络资源主体迫切需要一种能够

6、准确、快速区分网络用户信用度的方法, 以便向不同信用度用户提供差异服务、产品或安全授权。传统的信用度评估手段, 尤其是安全授权机制, 如访问控制列表 (ACL) 、一些传统的公钥证书体系 (PKI) 等, 在定义网络用户信用度时暴露出许多弱点。究其原因在于网络用户数量庞大, 地域分散, 网络运行环境具有差异性, 各资源主体对用户信用度的评价标准不同。因此, 如何在开放的互联网中建立和维护处在不同地域、不同管理机构中的网络用户信用度, 并以此实现对用户跨域、跨机构的差异服务、授权, 是当前各种新型网络应用所共同面临的一个问题。随着“信任管理”和“信任协商”等思想和方法的出现, 为基于开放环境的网

7、络用户信用度评价问题, 提供了新的解决思路。近年来, 众多学者对这个问题做了很多有益的研究, 也提出了不少信用评估模型, Marsh1、Huynh2、Xiong3、姜守旭4、Liang5等基于交易反馈信息找出一组影响信任的关键因素, 并以加权法进行信任评估。Wang6、陈建刚7利用贝叶斯理论来描述交易反馈数据中影响信任的因素, 并综合这些因素来进行信任评估。Song8、Ramchum9、张兴兰10等基于模糊逻集推理分别提出了各自的信任评估模型。但总体来看, 将这些模型用于网络用户信用度评估存在以下两方面的不足:(1) 网络证据间存在冲突。当前信用评价模型不能很好地处理冲突, 许多模型存在回避冲

8、突的现象。有些模型虽然提出了一些方法来处理冲突, 比如使用简单加权平均算法、模糊集理论、粗糙集理论等, 但效果不佳。(2) 现有信用评价模型面对大规模证据数据时的伸缩性不够理想。随着互联网规模的扩大和业务的发展, 用户数量和产品种类越来越多, 网络证据规模正爆炸式地增长。采用单机式架构的信任评价模型处理能力有限, 存在计算效率低的问题。基于以上不足, 本文构建的信用度评估模型将设计一套网络证据归一化方法, 使用改进的 D-S 证据理论处理网络证据突出, 建立 Hadoop 平台下 Map Reduce计算框架11, 实现一趟 Map Reduce 算法计算网络用户信用度。1 网络证据融合1.1

9、 改进的 D-S 证据理论D-S 证据理论12是 Dempster 于 1967 年首先提出, 由他的学生 Shafer 于 1976年进一步发展起来的一种不精确推理理论, 具有处理不确定信息的能力。但由于证据间冲突的存在, 在处理高冲突证据时 D-S 证据理论会失效。此时 D-S 证据理论中冲突系数 K1 得到的融合结果往往与实际情况相悖。由于 D-S 证据理论在处理冲突数据时会出现不符合常理的结论, 国内外专家对 D-S 证据理论进行了改进。这些改进算法被设计运用在多传感器合成、不确定信息决策、信息融合等方面, 但仅在小数据量情况下对算法的准确度, 冲突处理, 收敛速度等指标做出分析。当使

10、用这些改进算法处理网络证据、评价网络用户信用度时, 由于网络证据数量巨大, 存在冲突, 往往不符合实际需求。1.2 网络证据融合算法假定识别框架 下的 2 个证据 E1、E 2其相应的基本信任分配函数 m1、m 2焦元分别为 Ai、B j, 则证据 E1、E 2间的相似系数可以表示为相似系数 d12用来描述证据间的相似程度。d 120, 1, 其值越大, 相似性越高。当 d12=1 时, 表示两证据 E1和 E2是完全相同的;当 d12=0 时表示两证据 E1和 E2是完全冲突的。计算每 2 条证据间的相似系数, 并表示为相似系数矩阵 S:将相似距阵每行相加可得到各证据对 Ei的支持度为式中

11、Supmi为证据 Ei被其它证据所支持的程度。如果一个证据和其它证据都比较相似, 则认为它们相互支持的程度也较高;相反, 如果一个证据与其它证据的相似程度较低, 则认为他们相互支持的程度也较低。证据 Ei的可信度为当一个证据被其他证据支持的程度越高时, 该证据的可信度就越大, 相反则可信度越低。在获得每条证据的可信度之后, 按照如下步骤进行证据合成:1) 计算证据间的相似系数 dij, 列出相似距阵;2) 求出各证据的支持度 Supmi和可信度 Crdmi;3) 把可信度作为权重, 对证据的基本信任分配进行加权平均;4) 用 D-S 合成规则合成加权平均证据, 当有 n 组证据时, 将加权平均

12、证据合成n-1 次。算法优点(1) 在有多条网络证据支持或否定某一焦元的时候, 算法能够保持这一焦元的信用度一致增加或减少。例 1 有如下 4 条证据:使用该算法计算 m1、m 2、m 3、m 4四条证据结果如表 1 所示。可以看到, 证据m1、m 2、m 3、m 4都支持 A 焦元, 相应的合成结果也显示 A 焦元的信任度持续提高, 这符合网络用户信用度评估的要求。表 1 证据融合结果 下载原表 通过调整证据对不同焦元的支持度, 可以控制算法的收敛速度。由于该算法最后使用 D-S 证据理论对 n 条证据合成 n-1 次, 导致了合成过程中信任分配快速向支持度较高的焦元集中, 收敛速度快。从表

13、 1 可看出, 当 4 条证据进行融合时, 焦元 A 的支持度就已经接近于 1。因此本文做法为:选取从 m1 (0.504 0.496 0) , m2 (0.505 0.4950) , , 到证据 m10 (0.513 0.487 0) , 且每条证据对焦元 A 的支持度增长 0.01 的 10 条证据, 与证据 m11 (0.496 0.504 0) , , 到证据 m20 (0.4870.513 0) 且每条证据对焦元 A 的支降度降低 0.01 的 10条证据, 使用本文算法计算相同证据融合后对焦元 A 的支持度, 其计算结果如图 1 所示。从图 1 可看出, 当证据为 m1 (0.50

14、4 0.496 0) 时, 该算法需要 290条相同证据将焦元 A 的支持度从 0.5 提升到 1。当证据为 m10 (0.513 0.487 0) 时需要 90 条相同证据将焦元 A 的支持度从 0.5 提升到 1。焦元 A 的支持度从0.5 降低到 0 所需要的证据数和增加时保持一致。并且当不断增加或减少相同证据时, 焦元 A 的支持度能够保持一致的增长或减少。这表明可以通过调整证据对焦元的支持度, 控制收敛速度。因此, 该算法在评估网络用户信用度时, 可以通过调整网络证据的权值控制信用度的收敛速度, 从而提高网络用户信用的区分度。图 1 算法收敛速度 下载原图本文使用该算法融合网络证据,

15、 并依照算法的特点对网络证据构造带权基本信任函数。2 模型构建2.1 构建基本信任函数本文设计的信用度评估模型将采集网络用户的电子商务交易数据、网络社区反馈数据和网络操作行为数据作为证据计算用户信用度。电子商务数据可以从电子商务交易网站服务器获得, 网络社区反馈数据可以从网络社区服务器获得, 网络操作数据可以从安全审计系统中获得。获得原始证据后, 将原始证据进行预处理后得到统一格式的网络证据, 再将网络证据对应转化为基本信任函数后进行计算。对于一个网络用户用存在“信任”和“不信任”两种评价。“信任”使用 t 表示, “不信任”使用 d 表示, 则网络用户信用情况的识别框架可以定义为识别框架为:

16、2=, t, d, 对于一条网络证据, 由基本信任分配函数的定义可知 , mt表达了本条证据对该用户判定为信任的支持程度, md表达了本条证据对该用户判定为不信任的支持程度, m表达了本条证据对无法判定该用户可信度的支持程度。因此, 本文构造的基本信任分配函数的基本形式为:2.2 权重设置不同类型的网络证据和同一类型不同属性的网络证据对网络用户的信任度影响程度不同, 应根据网络证据的不同类型和不同属性为其赋予一个合理的权重。合理的权重能够使信用度评价更准确, 获得更高的用户区分度。证据权重的设计应该根据用户数量、网络安全的侧重点加以区别。不同网络主体对网络用户的信用度评价侧重点不同, 权值的设置也不同。本文根据图 1 所示的算法收敛速度结合现实中网络活动的实际情况设置一种带权重基本信任函数。(1) 电子商务类证据的带权重基本信任函数如表 2 所示。表 2 电子商务类证据带权基本信任函数 下载原表 (2) 网络社区活动类

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号