梯度下降的通俗理解

梯度下降

梯度下降并不是一种机器学习的算法,而是一种非常通用的优化算法,它能够很好地解决一系列问题。
他就是经过不断的改进,调整我们的 w 值,使得我们模型的损失函数达到最小值,也就是优化我们的模型参数。
通俗理解为,我不断的寻找,我想要的(合适)的女孩(参数/权重)在哪里。

具体来说,一开始,我们随机选择一个数 w ,然后一步一步改进,每一次变化一小步,每一步都尝试降低损失函数。
梯度下降的通俗理解
这就有点类似于你蒙着眼下山,你总是先抬起一只脚去试探,哪里是下山的路,找到后就向下走一步,周而复始直到我们下山。
而下山除了要找方向还有一个重要的因素就是你的步子迈多大(步长)

如果太小了,那你一步一步挪,猴年马月你能到达山底。
梯度下降的通俗理解

如果太大了,you’re like a giant,容易一 jio 迈到另一座山 [手动狗头]。
梯度下降的通俗理解
所以我们需要迈合适的步子,走合适的路。

但是呢,并不是所有损失函数都非常的令人满意,它们可能是洞,山脊,高原和各种不规则的地形,这就让它们收敛到最小值变的非常困难。

就有可能遇到这样的问题:
如果随机值选到左侧,它将慢慢缩小到局部最小值,可这个值要比全局最小值要大,这可不能满足我们的意愿。
如果随机值选到右侧,那么跨越高原将需要很长时间,这就会造成一种问题,你走一阵觉得不会再改变了,你就停了下来,那么你将永远到不了全局最小值。
梯度下降的通俗理解