论文笔记——Asynchronous Decentralized Parallel Stochastic Gradient Descent

论文笔记——Asynchronous Decentralized Parallel Stochastic Gradient Descent

改变了中心化的结构,使用了分布式的结构

论文笔记——Asynchronous Decentralized Parallel Stochastic Gradient Descent

算法过程

每个worker在其本地内存中维护一个本地模型 ,并(以workeri为例)重复以下步骤:

      样本数据:样本由{ } 表示的一小批训练数据,其中M是batch size。

      计算梯度:使用样本数据计算随机梯度 ,其中 是从本地内存中读取的模型。

      梯度更新:通过 更新局部存储器中的模型。注意, 可能和 不同,因为它可以被其他workers在平均步骤中修改。

        平均:随机选择邻居(例如worker i’),并用worker i’的模型 平均本地模型(两个worker上的两个模型都被更新为平均模型)。

论文笔记——Asynchronous Decentralized Parallel Stochastic Gradient Descent

分布式存在的问题:可能会产生死锁

给定三个完全连接的worker A、B和C,A发送其本地模型 给B并等待来自B的 ;B已发送 给C并等待C的响应;C已发送 给A并等来自A的。

解决方法:将客户端分成两个集合,一个主动集一个被动集。只允许主动集里的worker连接被动集里的worker。

改进

  1. 异步+分布(分散)
  2. 在本地训练上实现了并行计算,加快了每个worker本地训练速度。

加入了GPU,梯度计算和权重更新在GPU上实现,通信在CPU上实现

  1. 在本地模型进行更新时,加入了双随机矩阵

论文笔记——Asynchronous Decentralized Parallel Stochastic Gradient Descent

论文中说这种泛化在实现时提供了很大的灵活性,而不会影响对性能的分析

优势

该算法对异构计算和异构通信都具有鲁棒性