一种面向众包的基于信誉值的激励机制

资源描述

《一种面向众包的基于信誉值的激励机制》由会员分享，可在线阅读，更多相关《一种面向众包的基于信誉值的激励机制（8页珍藏版）》请在金锄头文库上搜索。

1、第 38 卷第 7 期电子与信息学报 Vol.38No.7 2016 年 7 月 Journal of Electronics and a punishment mechanism is established to counter selfish workers. The experiment results show that the new established model can efficiently motivate the rational workers and counter the selfish ones. By setting punishment pa

2、rameters appropriately, the overall performance of crowdsourcing system can be improved up to 90%, even if the fraction of selfish workers is 20%. Key words: Crowdsourcing system; Incentive mechanisms; Punishment mechanisms; Repeated game 1 引言众包是指一个公司或机构把过去由员工执行的工作任务，以自由自愿的形式包给非特定的大众网络的做法1,2。在众多的

3、众包平台中，比如 Yahoo Answers3以及 Amazon Mechanical Turk4，用户通过完成小任务获取一定报酬。众包平台中的典型任务有设计图形，征集营销方案，图像标记等。为了便于说明，将一个众包平台的用户分为两类：在平台上发布任务的用户称为任务发布者，完成任务的收稿日期： 2015-09-25；改回日期： 2016-04-22；网络出版： 2016-06-03 *通信作者：张攀基金项目：国家自然科学基金(61302078, 61372108)，国家自然科学基金创新研究群体科学基金(61121061)，北京高等学校青年英才计划项目(YETP0476) Foun

4、dation Items: The National Natural Science Foundation of China (61302078, 61372108), The Funds for Creative Research Groups of China (61121061), Beijing Higher Education Young Elite Teacher Project (YETP0476) 用户称为工作者。许多众包平台呈现出相似的架构，即任务发布者将一个任务的描述信息，连同这个任务的报酬值一起，发布在众包平台上。工作者提交对于这个任务的解决方案，并且由任务发布者

5、对答案进行筛选，最终被选中答案对应的工作者会得到相应的报酬。众包的工作方式，可以帮助任务发布者获得大量自由工作者，通过利用这些工作者的智慧解决实际问题。然而，由于工作者和任务发布者具有自私特性并且致力于获得自身效益的最大化，这样的情况导致工作者所提交的结果中包含大量随意甚至虚假的答案，即在众包平台中，存在内部的激励问题。因此，如何激励工作者尽力完成任务，从而保障在众包平台中结果数据的质量，成为优化众包服务的重要环节。目前针对众包的研究工作主要集中在以下3个方面：(1)基于众包的信任机制设计5 8。将信誉值第 7 期芮兰兰等：一种面向众包的基于信誉值的激励机制 18

6、09 作为众包平台识别和惩罚恶意工作者的重要指标, 并且基于工作者的可信程度和用户偏好为任务分配提供决策支持；(2)激励机制设计9 12。通过设计合适的激励机制，保证工作者的工作动力，这对于保障众包平台的性能至关重要；(3)结果质量评估方法的研究13 15。目的是通过各种方法对工作者提交的结果进行评估，以此来识别恶意工作者；并将这个评估结果作为触发对工作者恶意行为进行惩罚的重要条件。在信任机制的设计方面，文献5提出在众包平台中，采用信誉值解决恶意工作者的方法是可行的，同时，基于可信程度的任务分配机制，可能会提升整个众包平台的总体效用。文献6考虑将信任机制引入到移动网络

7、的内容发现和缓存中，构建了一个用于内容发现和缓存的系统Figaro，同时采用博弈论的方法证明了使用上述信任机制可以有效激励移动用户间的合作。但是在传统的信任机制研究中，总是旨在尽可能精准地计算和识别出一个最可信的服务提供结点，并且是基于如下两个假设：(1)在一个时间单元内，每个服务提供结点可以响应数量无上限的服务请求，(2)在完成一个任务时，只需要在若干服务提供结点中选择一个结点。然而，在众包平台中，上述的两个假设都是不成立的。在基于众包的激励机制设计的研究方面，一类工作研究的激励机制是依赖于金钱报酬的方法。当工作者完成任务后，由任务发布者以现金的形式支付给工作者作为

8、报酬。另外，还有一类是研究基于信誉的激励机制，比如，文献9分别在以平台为中心和以手机用户为中心的2种不同的感知系统模型中设计了与模型相适应的激励机制。文献10研究基于信誉的激励机制，利用博弈论中相关理论建立效用矩阵，并通过建立马尔科夫过程，分析和证明上述方法能有效激励工作者进行合作。除了上述两种方法外，还有基于拍卖的激励机制研究，比如，文献11基于质量驱动的拍卖理论，提出了一种针对于移动群智感知环境的激励机制QDA，同时从理论证明了该机制的真实性，满足个体理性以及平台可盈利。但是在上述研究中，缺乏对于众包平台中可能产生的工作者恶意行为，比如，恶意诽谤攻击等的处理和

9、惩罚机制研究6,12。结果质量评估方法的研究方面，最简单的一种方法就是使用黄金标准数据评估工作者完成的质量，通过将工作者提交的结果与标准数据进行比较，可以检测出欺骗类型工作者，并拒绝他们提交的结果1。本文将不会对质量评估的具体方法进行研究。但是由于在任务发布者一侧对于工作者提交的答案进行质量判定，得到的结论可能会有失偏颇，甚至会存在恶意诽谤攻击等行为，本文将会针对这类攻击行为的处理和惩罚机制进行深入的研究。由此可见，目前基于众包的信任机制和激励机制的设计方面，仍存在着缺陷。为了解决上述问题，建立完善的信任和激励机制，本文首先为系统中的每个工作者分配信誉值，并建立相应的

10、信誉值计算模型；其次设计了一种惩罚和反馈机制，使得在任务发布者收到了工作者的答案后，向众包平台反馈，并以此为依据决定是否触发惩罚；然后对传统任务分配机制进行扩展，提出了针对众包平台的任务分配算法；最后采用重复博弈的方法，证明了在合理选择惩罚参数的基础上，可以有效激励理性工作者的尽力工作。本文的创新点如下： (1)设计了一种基于工作者历史行为的惩罚机制。其中，惩罚期长度与工作者的历史行为相关，当工作者是初次或是偶尔进入惩罚期时，其信誉值恢复的速度较快；而当工作者具有恶意行为时，则其信誉值恢复速度越来越小。 (2)对任务发布者的反馈进行可信度的判定，提出了消极反馈率的概

11、念，采用消极反馈率可以有效鉴别任务发布者消极反馈的可信度。 (3)采用基于上述信誉值计算模型的重复博弈方法，证明了在合理选择惩罚参数的基础上，可以有效激励理性工作者的尽力工作。所提方法弥补了基于马尔科夫过程的激励机制研究中，缺乏对众包平台中可能产生的恶意行为如恶意诽谤攻击等进行处理的缺陷。本文第2节详细分析众包信任机制，给出了基于信誉值的激励模型，并提出了基于用户历史行为的惩罚机制；第3节针对众包平台进行重复博弈分析，并得到激励一致性的条件；第4节详细分析了我们的实验结果，验证了在合理选择惩罚参数的情况下，可以有效激励理性工作者尽力完成工作，平台的整体性能和效益可

12、以相应提升；第5节为结束语。 2 基于信誉值的激励机制 2.1 问题定义 (1)用户：众包平台的用户包含任务发布用户集合R以及工作者集合W。对于任意任务发布者 rR，在t时刻发布的一个任务t rT，需要被分解为t rN个子任务进行处理。通常来说，同一个t rT分解的t rN个子任务可以视作是相同类型的。同一时间内，一个工作者wW可以完成一个或多个子任务，然而，受制于工作者的能力，存在一个单位时间内1810 电子与信息学报第 38 卷完成子任务数量的上限，这里记作maxw。这个参数主要用在平台在对工作者进行任务分配时，单位时间内可以分配的最大数量。 (2)信誉值计算

13、模型：本文的信誉值计算模型包含两个部分：信誉值计算方法，信誉值集合Rep。众包平台为每个工作者w赋予信誉值，用参数rp表示。 rp是集合Rep0,1,=?中的元素，其中表示最大信誉值。初始设置所有工作者的信誉值均为，随着交易过程的发生，工作者的信誉值发生变化，高信誉值反应了工作者在执行任务时表现良好。根据任务发布者对于本次交易过程的满意程度，众包平台对工作者的信誉值进行更新。信誉值计算方法规定了根据任务发布者对于交易过程的满意程度，对工作者的信誉值进行更新的具体方法。计算模型如式(1)所示，式(1)中涉及到的相关参数在表1中进行定义。 Fe表示任务发布者对工作者完

14、成任务的情况做出的评价，该评价只分为两个等级：等级H和等级L。其中，H表示任务发布者认为工作完成情况服务要求，L表示不符合要求。(rp,Fe)表示在工作者当前的信誉值为rp的情况下，收到任务发布者的评价Fe后，信誉值更新的情况。同时设立信誉状况阀值PL。 0min ,rp1, FeH,rpPLrp1, FeL,rpPL1 (rp,Fe)0, FeL,rpPLminPL,rp1, rpmin,2 nPa+=+=+ (1) 式(1)中，参数定义如表1所示。 2.2 惩罚激励机制在上述的信任机制下，当一个工作者处于活跃 (即当rpPL)状态时，每经过一次交易，并且获得任务发布者的肯定评价

15、后，其信誉值会增加1，但是表 1 参数定义符号含义 rp 工作者当前的信誉值信誉值的最大取值 Fe 任务发布者对工作者完成任务的情况做出评价 H 工作的完成情况符合要求 L 工作的完成情况不符合要求 PL P0 信誉状况阈值，低于该值则工作者进入惩罚期惩罚期长度的基数 (0)a a 惩罚力度因子 (0)n n 某工作者接受惩罚的历史次数不会超过信誉的最大额度；但是当获得的是负面评价时，工作者的信誉值相应减少1。当工作者的信誉值降低到阈值PL，并且再一次收到了负面评价后，工作者的信誉值会被清零，进而进入到惩罚期。在惩罚期中，工作者只有通过参与交易并且获得正面评价才可以获得信誉恢复1，直到信誉值恢复到0min,2 nPa后，重新置为阈值 PL，之后工作者可以开始正常参与交易。同时，工作者在惩罚期中参与交易不能得到报酬，并且如果在惩罚期内，工作者仍然选择不尽力工作，那么，该工作者将会被驱逐出该众

展开阅读全文