机器学习系列25：随机梯度下降算法

如今机器学习的数据集动则几千万或上亿，如果运用我们之前学过的 Batch 梯度下降算法，就会发现效率很低，因为在梯度下降时，每次循环都要对所有的数据进行求和，这会浪费大量的时间。有没有更好的方法去处理大数据呢？答案是有的。我们在处理大数据时，会选择随机梯度下降算法（Stochastic gradient descent）。

下面是随机梯度下降算法的代价函数：

机器学习系列25：随机梯度下降算法

之后是随机梯度下降算法：

机器学习系列25：随机梯度下降算法

首先需要随机打乱所有的数据集，然后就到了算法的核心，这个算法有两层循环，外循环通常来说有 1-10 次，具体次数视问题而定；内循环遍历所有的数据集一次，相比 Batch 梯度下降算法 ，它不需要每次循环都遍历一遍数据集。

我们可以把 Batch 梯度下降算法和随机梯度下降算法运行过程画在一张图上：

机器学习系列25：随机梯度下降算法

红色的路线为 Batch 梯度下降算法的收敛路线，粉色为随机梯度下降算法的收敛路线。可以看到，随机梯度下降算法不一定每次都会进行收敛，但总体会朝着收敛的方向进行，最终收敛到全局最小处。

ps. 本篇文章是根据吴恩达机器学习课程整理的学习笔记。如果想要一起学习机器学习，可以关注微信公众号「SuperFeng」，期待与你的相遇。

机器学习系列25：随机梯度下降算法

机器学习系列25：随机梯度下降算法

相关推荐