基于差异合并的分布式随机梯度下降算法

资源描述

《基于差异合并的分布式随机梯度下降算法》由会员分享，可在线阅读，更多相关《基于差异合并的分布式随机梯度下降算法（10页珍藏版）》请在金锄头文库上搜索。

1、书书书第卷第期年月计算机学报收稿日期：；最终修改稿收到日期：本课题得到国家“ 九七三” 重点基础研究发展规划项目基金（，）、国家“ 八六三” 高技术研究发展计划项目子课题基金（）、国家自然科学基金重点基金（）、国家自然科学基金杰出青年学者基金（，）资助陈振宏，男，年生，博士研究生，主要研究方向为大规模机器学习、分布式系统、社交网络：兰艳艳，女，年生，博士，副研究员，主要研究方向为机器学习、排序学习、统计学习理论、数据挖掘郭嘉丰，男，年生，博士，副研究员，主要研究方向为互联网搜索与挖掘、用户数据挖掘、机器学习

2、、社交网络程学旗，男，年生，博士，研究员，博士生导师，主要研究领域为网络科学与社会计算、互联网搜索与挖掘、网络信息安全、分布式系统与大型仿真平台基于差异合并的分布式随机梯度下降算法陈振宏），）兰艳艳）郭嘉丰）程学旗）（中国科学院计算技术研究所网络数据科学与技术重点实验室北京）（中国科学院大学北京）摘要大规模随机梯度下降算法是近年来的热点研究问题，提高其收敛速度和性能具有重要的应用价值大规模随机梯度下降算法可以分为数据并行和模型并行两大类在数据并行算法中，模型合并是一种比较常用的策略目前，基于模型合并的随机梯度下降算法普遍采用平均加权方式进行合并，虽然取得了

3、不错的效果，但是，这种方式忽略了参与合并的模型的内在差异性，最终导致算法收敛速度慢，模型的性能及稳定性较差针对上述问题，该文在分布式场景下，提出了基于模型差异进行合并的策略，差异性主要体现在两方面，各模型在其训练数据上错误率的差异和训练不同阶段模型合并策略的差异此外，该文对合并后的模型采用规范化技术，将其投射到与合并前模型范数相同的球体上，提高了模型的收敛性能作者在、和个数据集上，验证了提出的基于差异合并的分布式随机梯度下降算法相对于平均加权方式具有收敛速度更快、模型性能更好的性质关键词分布式；随机梯度下降；规范化；模型合并；社交网络；社会计算中图法

4、分类号犇犗犐号犇犻狊狋狉犻犫狌狋犲犱犛狋狅犮犺犪狊狋犻犮犌狉犪犱犻犲狀狋犇犲狊犮犲狀狋狑犻狋犺犇犻狊犮狉犻犿犻狀犪狋犻狏犲犃犵犵狉犲犵犪狋犻狀犵），））））（犓犲狔犔犪犫狅狉犪狋狅狉狔狅犳犖犲狋狑狅狉犽犇犪狋犪犛犮犻犲狀犮犲犪狀犱犜犲犮犺狀狅犾狅犵狔，犐狀狊狋犻狋狌狋犲狅犳犆狅犿狆狌狋犻狀犵犜犲犮犺狀狅犾狅犵狔，犆犺犻狀犲狊

5、犲犃犮犪犱犲犿狔狅犳犛犮犻犲狀犮犲狊，犅犲犻犼犻狀犵）（犝狀犻狏犲狉狊犻狋狔狅犳犆犺犻狀犲狊犲犃犮犪犱犲犿狔狅犳犛犮犻犲狀犮犲狊，犅犲犻犼犻狀犵）犃犫狊狋狉犪犮狋，，，，，，，，，，，，犓犲狔狑狅狉犱狊；；；；；引言机器学习算法中的随机梯度下降算法由于使用简单、收敛速度快、效果可靠等优点得到了普遍应用，但是该算法需要在训练数据上不断迭代，遍历多遍数据，这在数据规模较大以及单台机器计算能力有限的情况下，

6、算法执行效率往往比较低在大数据背景下，分布式随机梯度下降算法得到了广泛的研究，提高其收敛速度和性能具有重要的应用价值根据文献，我们可以把当前的大规模随机梯度下降算法分为两类：数据并行和模型并行在数据并行算法研究中，之前的工作将数据随机划分分布到不同机器上，通过在多个机器上同时独立地执行随机梯度下降算法，将得到的多个模型进行合并作为最终的模型或者下一次迭代的初始模型，这种策略取得了很好的效果目前，基于模型合并的分布式随机梯度下降算法普遍采用平均加权方式，平等对待每台机器上得到的模型这样的合并方式存在以下两个缺点：第一，采用平均加权的方式，忽略了各模型内在的差异性，

7、合并得到的模型不能很好地反映全局数据间的差异特点，导致学习收敛速度变慢；第二，将合并得到的模型作为下一轮迭代计算的初始模型时，从每台机器的角度来看，相当于在模型空间中根据自己当前的模型和远程机器上的模型搜索下一个更好的点，直接平均加权合并得到的模型相对本地模型变化比较大，一定程度上影响了模型性能虽然文献尝试基于模型错误率进行合并，但其实验结果表明基于模型错误率的合并策略和平均加权合并的策略效果基本没有差别针对上述问题，本文提出了一种基于差异合并的分布式随机梯度下降算法（），通过两种策略来提升分布式随机梯度下降算法的收敛速度和模型性能：（）基于性能的加权合并与平均

8、加权方式和简单的基于模型错误率进行合并的策略不同，参与合并的各个模型的权重综合考虑了其在所在机器上已使用训练数据的误差以及整个学习过程的进度特别是随着学习过程的推进，给予性能较好的远程模型更高的权重，从而能更好地捕捉全局数据的特点，保证模型的稳定性；（）合并模型的规范化对于加权合并后的模型，我们使用规范化技术使得合并后的模型与本地模型的范数相同，即两个模型处于模型空间的同一个球体表面上，模型合并相当于利用全局信息修正了本地模型的方向，从而提高本地模型的性能我们在分布式环境下，通过实验验证了上述合并策略的有效性，使用上述合并策略的算法相对平均加权收敛速度更快更稳定，而

9、且算法能够达到更优的性能本文第节介绍相关工作；第节介绍本文使用的学习算法以及分布式通信框架；第节详细阐述本文提出的基于差异合并的分布式随机梯度下降算法；第节通过实验验证本文提出的算法的有效性；第节对本文进行总结并讨论下一步研究的方向相关工作分布式随机梯度下降算法是近几年来的一个热点研究问题本文关注基于模型合并的分布式随机梯度下降算法，由于篇幅限制，我们并不详细介绍共享内存多核并行下的随机梯度下降算法和基于参数服务器的算法，等相关工作基于模型合并是处理大规模数据的一种常用策略，特别是在完全分布式的环境下，例如网络中，大部分算法普遍采用模型合并的方式进行训练文献在

10、和框架下验证了（）、（）和（）等算法的性能算法在阶段，每个机器获取最新模型，然后计算各自机器上数据的梯度，阶段将阶段得到的梯度加到一起更新模型，重复多次直到模型收敛与不同，算法在阶段各机器独立地执行一遍随机梯度下降，阶段将阶期陈振宏等：基于差异合并的分布式随机梯度下降算法段得到的模型进行平均加权合并，得到下一轮迭代的初始模型和算法在每一轮迭代后需要同步更新全局模型，为避免同步带来的额外时间开销，算法在计算的时候每个机器在每一轮迭代开始时异步地获取全局模型，然后在本地机器上独立地运行随机梯度下降算法，并用每一轮结束时得到

11、的模型与这一轮初始模型的差对全局模型进行异步地更新是一种简单的基于参数服务器实现的分布式随机梯度下降算法相对和虽然节省了同步的时间开销，但是算法中每个机器上的模型不是最新的模型，导致异步更新时使用的梯度不能很好的反应当前全局模型的梯度，每一轮迭代的收敛速度相对较慢由于网络延迟以及同步所需的额外开销，计算框架并不太适合随机梯度下降这种需要在数据上迭代多次、顺序更新模型的算法文献提出的（）算法与算法类似，但算法只有一轮的，在阶段，每个机器独立地执行完整的随机梯度下降算法，直到模型收敛；在阶段，对每个机器上的模型进

12、行平均加权合并，得到最终的模型相对算法大大地降低了机器间的通信开销，但是由于每台机器都只使用本地的数据，训练过程没能够利用全局数据信息提高本地模型的性能介于和之间，文献提出的（）算法采用蝴蝶状通信方式，去除参数服务器中心节点，每轮迭代中各个节点独立地执行随机梯度下降算法，然后将模型仅发送给下一个通信节点，同时每个节点平均加权合并本地模型与接收到的模型，这种方式较加强了全局数据在训练过程中对于本地模型的作用，蝴蝶型的通信方式与相比又降低了通信代价，因此具有良好的性能，在分布式随机梯度方法的研究中成为一个热点其具体通信机制及优点将在小节中进行详细介绍综上

13、所述，据我们目前调研的结果，大部分分布式梯度下降算法在做模型合并时都只是简单地进行平均加权，忽略了模型之间的差异性，而且平均加权合并得到的模型在模型空间中的分布范围较大，可能会影响算法收敛的速度和性能本文以算法的通信框架为基础，在进行模型合并时利用各个模型在其机器上数据的性能，同时考虑整个学习算法的进度对模型进行加权合并另外，通过限制结果模型在模型空间的分布范围，很好地提高了模型的收敛速度和性能基本学习算法与通信机制本文采用作为每个节点上的基本学习算法，因为是一种使用随机梯度下降算法求解支持向量机（）原始问题的知名算法，而支持向量机是被广泛使用和研究的机器学习算

14、法本文提出的算法执行时各机器节点间的通信计算采用与算法相同的方式本节中，我们分别介绍和算法犘犲犵犪狊狅狊算法支持向量机是目前广泛使用的机器学习算法之一，对于给定的训练数据集犛（狓犻，狔犻）犿犻，其中狓犻犚狀，狔犻，，支持向量机可以形式化为式（）定义的最小化问题使用随机梯度下降直接求解式（），具体求解步骤如算法所示狑狑犿（狓，狔）犛，狔狑，狓（）算法输入：犛，犜，犽输出：狑犜：狑狑槡狋，，犜犃狋犛，犃狋犽犃狋狓，（）狔犃狋：狔狑狋，狓狋狋狑狋（狋）狑狋狋犽（狓，狔犃狋）狔狓狑狋，槡狑狋狑狋算法输入参数为迭代次数犜和用

15、来计算梯度的样本数犽，每一轮迭代分两步：第步选择训练集犛中的犽个样本组成集合犃狋，对犃狋中导致目标函数产生非零损失的数据点计算梯度更新模型狑；第步将得到的狑映射到集合犅狑：狑槡中犅犕犇犛犌犇通信机制（）采用蝴蝶状通信方式，如计算机学报年图所示假设集群中有狀个机器，这里以狀为例进行说明算法每一轮迭代分两步，每个节点先独立地执行一遍随机梯度下降算法，然后将得到的模型按图的通信方式发送给对应节点，同时将收到的来自其他节点的模型与本地模型进行平均加权，合并得到的模型作为本地节点下一次迭代的初始模型例如第轮通信时，节点与节点互发模型，节点与节点互发模型；第轮

16、通信节点与节点互发模型，节点与节点互发模型算法每经过狀轮迭代，使每台机器上的数据信息会传播到整个集群上图蝴蝶状通信结构示意相对和算法来说，避免了同步更新全局模型带来的网络开销及中心节点瓶颈限制，每个节点同时进行模型合并，大大降低了每一轮迭代的通信开销；相对算法，在迭代的过程中能利用不同机器上的数据信息，提高算法的收敛速度和性能；相对基于参数服务器实现的大规模随机梯度下降算法，是一种更加分布式化的实现，每个节点独立地保存最新的模型，能并行地进行模型应用特别地，在网络中，例如传感器网络和移动手机网络中，基于模型合并的是一种典型且普遍应用的训练框架犇犃

17、犇犛犌犇算法通过上述相关工作的回顾，我们发现，目前基于模型合并的分布式随机梯度下降算法在进行模型合并时基本采用平均加权方式，忽略了模型之间的差异性，合并结果相对本地模型变化较大，作为下一轮迭代的初始模型可能导致模型收敛速度较慢，而提高大规模随机梯度下降算法的收敛速度和性能具有重要的应用价值，能极大地节省计算资源和训练时间针对这个问题，本文提出基于差异合并的分布式随机梯度下降算法，（），算法具体步骤如算法所示核心思想是在合并时充分考虑每个模型在其所在机器上已使用训练数据的误差以及整个学习过程的进度这两项差异，从而加快算法收敛速度；同时使用规范化技术使得合并后的模

18、型与本地模型的范数相同，降低合并给模型带来的巨大变化，提高学习精度算法算法输入：犛，犘犜，犽，犜，犖输出：狑犜犛犖犛，犛，，犛犖：犻，，犖，狑犻，狑犻槡狋，，犜狑犻狋（犛犻，犘犜，犽，狑犻狋）犻犻犼（犻，狋，犖）（狑犻狋，犻）犼（狑犼狋，犼）犼犻犻（）犻，犼犼（）犼狑犻狋犻犻犼狑犻狋犼（犻犼）犻犼（犻犼）狑犼狋狑犻狋狑犻狋狑犻狋狑犻狋狑犜犖犻犻犖犼犼狑犻犜过程（犛犻，犘犜，犽，狑犻狋）狑犻狋，狑犻狋狆狋，，犘犜犃狆狋犛，犃狆狋犽犃狆狋狓，（）狔犃狆狋：狔狑犻狋，狆狋，狓狋，狆狋（（狋）犘

19、犜狆狋）狑犻狋，狆狋狋，狆狋（）狑犻狋，狆狋狋，狆狋犽（狓，狔犃狆狋）狔狓狑犻狋，狆狋，槡狑犻狋，狆狋狑犻狋，狆狋狑犻狋狑犻狋，犘犜期陈振宏等：基于差异合并的分布式随机梯度下降算法过程（犻，狋，犖）狋（狋）犖犼犻狋犾狅狑犲狉犫狅狌狀犱狉犪狀犵犲狋犫犻犪狊犫犻犪狊犖犻犫犻犪狊狉犪狀犵犲犾狅狑犲狉犫狅狌狀犱犫犻犪狊犫犻犪狊狉犪狀犵犲犼犾狅狑犲狉犫狅狌狀犱狊狋犲狆犼犾狅狑犲狉犫狅狌狀犱犼狉犪狀犵犲犼算法输入参数

20、中犛为训练数据集，为算法目标函数中模型参数狑的正则因子，犘犜为本地节点每一轮迭代中算法的迭代次数，犽是算法每一轮迭代中用来计算梯度的训练样本数，犜是算法每个节点的迭代次数，犖是集群中参与计算的节点数其中，犘犜的值用来调节本地计算时间和网络通信时间的平衡，显然太小的犘犜值会使算法的大部分时间开销都在网络通信上具体地，训练数据被随机均匀划分到犖个节点上，每个节点随机初始化模型参数狑犻，实验中我们限制初始模型狑犻的范数为每一轮迭代中，各计算节点调用函数执行犘犜次算法的内部迭代运算，然后在本地已经被使用过的训练数据上计算模型的平均错误率算法的步骤中函数根据当前迭代次

21、数以及蝴蝶状通信网络结构选择通信节点，并互相发送节点上的模型和错误率，各节点将接收到的模型及其错误率与本地模型进行差异化合并最后收集合并各机器上的模型得到算法的最终输出模型与算法的主要差别在于采用平均加权方式进行模型合并，而对模型进行差异化合并借鉴集成学习算法的权重计算公式，根据模型的错误率使用算法中步骤公式得到模型的基本权重；同时，考虑到算法不同阶段模型表现的差异以及对全局数据信息的利用情况，我们选择算法中步骤的公式在步骤的基础上重新对权重进行计算，得到最终合并使用的权重（具体做法在下一段落解释）此外，在每轮迭代的最后一步（算法步骤

22、），我们将合并得到的模型投射到与本地节点合并前模型的范数相同的球面上，实验结果表明这么做能够使最终模型的误差更小，模型也更稳定本文使用的模型差异化计算公式能够很好地刻画学习算法不同阶段应该采取的合并策略算法步骤中本地模型狑犻狋和接收到的模型狑犼狋的权重变化情况如图所示图模型合并权重示意其中， “ 犻” 和“ 犼” 坐标分别表示模型狑犻狋和狑犼狋在其已使用训练数据上的误差率，也就是算法中的犻和犼从图可以看到，在训练刚开始的时候，各个节点上模型的误差率相对较大，例如在之间，模型还不能很好地建模训练数据，来自其他节点的模型对本地数据的建模效果也很差，此时，如果本地模型误差率

23、与接收到的模型误差率接近，就给予本地模型更大的权重，即犻犻犼犼犻（）犼犻犼犻（）犼；当接收到的模型误差率显著低于本地模型误差率时，给予接收到的模型较大的权重而在算法训练后期，各模型表现趋于稳定，在各节点数据属于独立同分布的假设下，各模型的训练误差率比较接近，此时误差率也相对较小，给予接收到的模型更大的权重，原因在于此时来自其他节点的模型相对本地模型包含的数据信息更大，能更好地建模全局训练数据相对在模型合并时采用了差异化的合并策略，虽然需要额外计算各节点的错误率，但是在分布式环境下，这些开销相对每次迭代中的通信开销小得多所以本文并不讨论与在运行时间上的差异另外

24、，差异化合并的思想能方便地扩展到等计算机学报年其他通信框架上实验分析本文在、和个分类数据集上对比与算法的收敛速度和最终模型的性能，采用二分类而不是多分类任务进行实验主要是因为多分类问题可以转换为二分类问题，同时，这也是大部分相关工作采用的做法另外，为了探究差异化合并和规范化技术对模型收敛速度及性能的影响，我们对合并后的模型使用采用的规范化技术，得到，对去除规范化步骤，得到，并对这些算法的性能及收敛性进行对比实验下面分别介绍实验使用的数据集和实验结果数据集是人工构造的数据集，来自年大规模学习竞赛，是二分类问题数据集包含条

25、训练数据和条测试数据，共个特征，特征预处理时先按特征进行狕归一化，再对每条数据按长度为进行归一化数据集共篇文档，我们使用类别对其进行二分类，使用其中的篇文档作为训练数据，篇文档作为测试数据，文档用词的向量空间模型表示，去除停用词并进行词干还原，特征使用计算方式，每个文档向量按长度为进行归一化为降低特征数量，我们去除在训练集中文档频率小于的词项，最终的特征数为数据集共条数据，个特征，用于判断是否为恶意链接，是二分类问题特征主要有词法特征和基于主机的特征两大类，都是从网页抽取的，不涉及网页具体内容词法特征是对网页按分隔符切分得到词项，再用词

26、袋模型表示，基于主机的特征包括域名注册日期、注册者、登记者、主机地理位置信息、地址前缀等，关于该数据集的更加详细的说明请参考文献我们对该数据集进行随机划分，划分后训练数据集有条数据，测试集有条数据实验结果我们对犖取不同的值，犖，，，分别进行实验，验证提出的算法的有效性我们发现犖取不同值时得到的实验结论是一致的，于是，我们对犖的实验结果进行详细分析，验证相对在性能和收敛速度上的优势实验中，迭代次数犜取足够大的值，保证观察到算法的收敛情况参考文献和文献算法的实验，我们取犘犜，犽，与两种算法的性能及收敛速度对比针对犖的

27、不同取值，我们得到图的实验结果，可以看到，本文提出的算法在、和个数据集上相对算法收敛速度更快、性能更好图犖，，时算法的测试集错误率下面我们以犖为例，进行详细的分析首先我们对比与两种算法的性能为此，我们计算测试集错误率随迭代次数犜的变化，在个数据集上的测试集错误率如图所示期陈振宏等：基于差异合并的分布式随机梯度下降算法可以看出，在测试集上的性能明显优于的性能例如犜时，在个数据集上我们的方法比的性能分别提高了、和图测试集错误率图目标函数值图训练集错误率计算机学报年下面我们对比与两种算法的收敛速度为此，我们分别计算目标函数值和训练集错误

28、率随迭代次数犜的变化，注意这些结果都是在全部训练数据上进行计算的目标函数值和训练集错误率在个数据集上的结果分别如图和图所示可以看到，算法相对算法收敛得更快具体地，仅用轮到轮的迭代其目标函数值和训练误差就基本收敛了，而目标函数值虽然基本收敛了，但是其训练错误率还有很大的波动，当我们将迭代次数犜增加到次时，发现算法在和两个数据集上的训练错误率依然没有收敛差异化合并和规范化两个因素的深度分析下面我们进一步分析中差异化合并和规范化这两个因素对收敛速度和收敛值的影响我们对去除规范化，采用与相同的合并权重计算公式，但是用权重归一化取代合并结果规范

29、化，得到同时，对的平均加权合并结果进行规范化，得到本文实验结果中测试集错误率和训练集错误率曲线趋势基本一致，所以在接下来的分析中我们使用测试集错误率来比较各种算法的收敛速度和收敛值，探究差异化合并和规范化两个因素的不同作用在、和的个数据集上不同算法的实验结果如图所示图测试集错误率首先我们研究差异化模型合并因素的影响，为此我们对比和算法，同时对比和算法通过实验结果，我们发现相对收敛速度更快，随着迭代次数的增加，很快就收敛了，但是还有一定程度的波动，但是两者最终收敛值一致对比和我们得到了相同的结果个数据集上得到的结果

30、也基本一致，相对数据集，和数据集上的差异更明显，部分原因可能在于上的分类任务相对容易，算法基本都能很快收敛接下来研究规范化技术对模型收敛速度和收敛值的影响，为此我们对比和算法，同时对比和算法在个数据集上的实验结果说明，通过使用规范化技术，相对、相对均收敛到更好的值综合以上实验结果表明，差异化合并能够提高模型收敛速度，而规范化技术能使模型收敛到更好的值实验小结上述对算法实验结果的分析和对比，用实验验证了差异化模型合并策略和规范化技术能很好地提高模型的收敛速度和性能，使模型随着迭代次数的增加，其性能有更稳定和更好的表现另外，我们也尝

31、试使用不同的权重计算方式，直接对模型在其所在机器上使用过的训练数据的准确率进行线性加权，实验结果与平均加权合并方式接近，因为每个节点上的模型从训练数据属于独立同分布的假设上来看，其准确率应该是接近的，直接线性加权的方式不能很好地捕捉模型之间的差异性期陈振宏等：基于差异合并的分布式随机梯度下降算法另外，最终模型合并时对算法根据各节点模型按性能仅取前犓个进行合并，能进一步稍微提高最终模型的性能总结本文针对分布式随机梯度下降算法普遍采用平均加权方式进行模型合并存在的收敛速度慢和最终模型性能较差的问题，提出了基于模型性能进行差异化合并的策略，同时对合并得到的模型进行规范化，使得

32、到的模型能更好地利用全局数据信息，提高收敛速度和性能实验结果证明，差异化合并策略相对平均加权方式，能提高模型收敛速度，同时，规范化技术的使用，使模型收敛到了更好的点后续研究工作中，我们打算使用逻辑回归等其他学习算法，同时考虑等分布式计算框架，验证本文提出的差异化合并策略和规范化技术的普遍有效性另外，对于本文使用的差异化加权方式，我们将更细致的研究算法迭代的不同阶段其加权机制对模型收敛速度的影响，同时，我们也会研究其他形式的权重计算方式参考文献，，，，，：，，：，，：，，，，，，，，，，：，，，，，：，，

33、，，，，，，，，，！：，，：，，，，：，，，：：，，，，，，：，，，，，：，，，，：，，：，，（）：，：，，，，，，：，，（）：，，，（）：，，，：，，（）：，，，：，，：计算机学报年犆犎犈犖犣犺犲狀犎狅狀犵，，，犔犃犖犢犪狀犢犪狀，，，，，犌犝犗犑犻犪犉犲狀犵，，，，，犆犎犈犖犌犡狌犲犙犻，，，，，，，犅犪犮犽犵狉狅狌狀犱，，，，，，，，，，，，，，，，，，，，，（），（），，期陈振宏等：基于差异合并的分布式随机梯度下降算法

展开阅读全文