各种梯度下降算法的区别

1.批量梯度下降算法使用所有样本,先累加求和再求平均值。需要的迭代次数相对较少,但是如果样本量很大的话,计算速度会很慢。

各种梯度下降算法的区别

 

2.随机梯度下降算法每次只使用一个样本,则选取的方向会比较随机,因而得名。但是收敛速度较慢,迭代次数会比较多。

各种梯度下降算法的区别

 

3.小批量梯度下降算法则介于上述二者之间,使用部分样本,是一个折中的办法。

各种梯度下降算法的区别

 

参考:

https://zhuanlan.zhihu.com/p/25765735