当前位置：网站首页>实际工作中的高级技术（训练加速、推理加速、深度学习自适应、对抗神经网络）

如下图所示，我们将10000条数据分配到10 个Client，每个Client处理分别1000条数据。这十个Client都有一个共享的初始模型W0。我们设置batch=100，每个Client运行一个batch后，都会更新一个模型W1。此时这10个Client的初始化模型W0是一样的，W1是不一样的，因为其输入的数据不一样。这样我们把10个Client的模型W1都发送给Server，Server对接受到的10个W1进行平均（这个过程就是模型平均），这样就得到了一个新的W1，然后再将这个新的W1分别发送给10个Client，每个Client都会接收到一个新的W1，并覆盖掉原来的W1，这样，这10个Client的W1就是一样的了。进行第二个batch得到W2。。。。

需要注意的是，在运行一个batch的过程中，可能有的Client的GPU更好，其模型W先于其他几个Client计算出来，虽然他计算的快，但他仍然要等其他几个Client的W都计算出来之后，再同步的发送给Server，整个网络训练速度取决于最慢的Client的计算速度。

②SSGD（同步随机梯度下降）

如下图所示，我们将10000条数据分配到10 个Client，每个Client处理分别1000条数据。这十个Client都有一个共享的初始模型W0。

同理设置batch=100，运行第一个batch，每个Client进行一次前向后向传播，得出W的梯度 $\Delta JW_1$ ，此时这10个Client的 $\Delta JW_1$ 是各不相同的，不进行共享的。然后将求得的这十个 $\Delta JW_1$

同步发送给Server，Server接收到 $\Delta JW_1$ 后，先对这10个 $\Delta JW_1$ 做一个平均，这样就得到了一个新的 $\Delta JW_1$ ，新的 $\Delta JW_1$ 再对W0做一个梯度下降得到W1，然后将这个W1发送给10个Client。

同理，运行第二个batch，将10个Client得出的梯度发送到Server做平均，再将得到的新梯度对W1做梯度下降得到W2，在发送给10个Client。。。。。

该方法也是同步的将梯度发送到Server，整个网络训练速度取决于最慢的Client的计算速度。

③ASGD*（异步随机梯度下降）

该方法是比较常用的，损失比较小，效率也是最高的。

如下图所示，我们将10000条数据分配到10 个Client，每个Client处理分别1000条数据。这十个Client都有一个共享的初始模型W0。

该方法与SSGD（同步随机梯度下降）相同，都是现在Client端计算完梯度，再发送到Server端计算W1，区别在于本节方法是一个异步的过程，无需等待每个Client的 $\Delta JW_1$ 都计算完成，

那他们是怎么进行异步操作的呢？

我们假设Client 1 先计算完第一个batch，并得到 $\Delta JW_1$ ，此时Client 1 无需等待其他几个Client完成，只需直接将 $\Delta JW_1$ 发送到Server并对Server中的W0做梯度下降，然后得到了W1，Server再将W1模型发送到Client 1 ，然后开始计算第二个batch，当第二个batch进行到一半的时候，Client 2 完成的 $\Delta JW_1$ 的计算，Client 2也将求得的 $\Delta JW_1$ 传入Server，注意，此时Client 2 传进来的 $\Delta JW_1$ 要对最新的W做梯度下降，即对W1做梯度下降，而不是W0，然后将计算出来的W1发送给Client 2。同理，其他Client将梯度发送到Server后，也要对最新的W做梯度更新，注意是最新的，即使Client 1更新了W8，Client 2在Client 1 的基础上更新了W6，后面再进行梯度下降的时候，也要对最新的W6进行计算。

PS：哪个Client最先完成计算，就直接发送给Server，不是按照Client1,2,3,...的顺序。上面那么说只是为了方便描述。