【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

注:这不是overfiting的结果,因为这里是training data

【李宏毅】机器学习 笔记08(Tips for deep learning)

 

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

对于最后卡在local minima的点,可以通过类比现实物理中的惯性,在做梯度下降时,加上一个代表类似惯性的量momentum,和梯度共同影响下一步的移动,来解决这种卡住的情况:

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

 

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

【李宏毅】机器学习 笔记08(Tips for deep learning)

这个平均值和所有的权重*(1-p)%的结果是可以约等的

如:两个input的时候:

【李宏毅】机器学习 笔记08(Tips for deep learning)

左边,average=(w1x1+w2x2+w2x2+w1x1+0)/4=(w1x1+w2x2)/2

右边,p=50%,所有的权重*(1-p)%算的结果=average