论文笔记——Asynchronous Decentralized Parallel Stochastic Gradient Descent

改变了中心化的结构，使用了分布式的结构

算法过程

每个worker在其本地内存中维护一个本地模型，并（以workeri为例）重复以下步骤：

样本数据：样本由{ } 表示的一小批训练数据，其中M是batch size。

计算梯度：使用样本数据计算随机梯度，其中是从本地内存中读取的模型。

梯度更新：通过更新局部存储器中的模型。注意，可能和不同，因为它可以被其他workers在平均步骤中修改。

 平均：随机选择邻居（例如worker i’），并用worker i’的模型平均本地模型（两个worker上的两个模型都被更新为平均模型）。

论文笔记——Asynchronous Decentralized Parallel Stochastic Gradient Descent

给定三个完全连接的worker A、B和C，A发送其本地模型给B并等待来自B的；B已发送给C并等待C的响应；C已发送给A并等来自A的。

解决方法：将客户端分成两个集合，一个主动集一个被动集。只允许主动集里的worker连接被动集里的worker。

加入了GPU，梯度计算和权重更新在GPU上实现，通信在CPU上实现

论文笔记——Asynchronous Decentralized Parallel Stochastic Gradient Descent

论文中说这种泛化在实现时提供了很大的灵活性，而不会影响对性能的分析

该算法对异构计算和异构通信都具有鲁棒性