机器学习系列25:随机梯度下降算法

如今机器学习的数据集动则几千万或上亿,如果运用我们之前学过的 Batch 梯度下降算法,就会发现效率很低,因为在梯度下降时,每次循环都要对所有的数据进行求和,这会浪费大量的时间。有没有更好的方法去处理大数据呢?答案是有的。我们在处理大数据时,会选择随机梯度下降算法(Stochastic gradient descent)

 

下面是随机梯度下降算法的代价函数:

机器学习系列25:随机梯度下降算法

之后是随机梯度下降算法:

机器学习系列25:随机梯度下降算法

首先需要随机打乱所有的数据集,然后就到了算法的核心,这个算法有两层循环,外循环通常来说有 1-10 次,具体次数视问题而定;内循环遍历所有的数据集一次,相比 Batch 梯度下降算法 ,它不需要每次循环都遍历一遍数据集。

 

我们可以把 Batch 梯度下降算法随机梯度下降算法运行过程画在一张图上:

机器学习系列25:随机梯度下降算法

红色的路线为 Batch 梯度下降算法的收敛路线,粉色为随机梯度下降算法的收敛路线。可以看到,随机梯度下降算法不一定每次都会进行收敛,但总体会朝着收敛的方向进行,最终收敛到全局最小处。

 

 

 

ps. 本篇文章是根据吴恩达机器学习课程整理的学习笔记。如果想要一起学习机器学习,可以关注微信公众号「SuperFeng」,期待与你的相遇。

机器学习系列25:随机梯度下降算法