之一:
在机器学习中,常常会出现overfitting,网络权值越大往往overfitting的程度越高,因此,为了避免出现overfitting,会给误差函数添加一个惩罚项,常用的惩罚项是所有权重的平方乘以一个衰减常量之和。
![[work] Weight Decay 权值衰减 [work] Weight Decay 权值衰减](/default/index/img?u=aHR0cHM6Ly9waWFuc2hlbi5jb20vaW1hZ2VzLzk5OS9mNDA5OTZlNjhmMmZjNGJlNTk1MzI5MGUyOTY5YmNjNy5wbmc=)
右边项即用来惩罚大权值。权值衰减惩罚项使得权值收敛到较小的绝对值,而惩罚大的权值。从而避免overfitting的出现。
之二:
假设我们原来的损失函数没有weight decay项,设为E(w),这种情况下的权值更新如下:
![[work] Weight Decay 权值衰减 [work] Weight Decay 权值衰减](/default/index/img?u=aHR0cHM6Ly9waWFuc2hlbi5jb20vaW1hZ2VzLzE2OC9lNzY3ZTQ3MGI3NjY0ZDBjODU2ZGJhNmYyYmM5YWUwOC5wbmc=)
带有weight decay项后,损失函数变为:
![[work] Weight Decay 权值衰减 [work] Weight Decay 权值衰减](/default/index/img?u=aHR0cHM6Ly9waWFuc2hlbi5jb20vaW1hZ2VzLzEwNy9mNWY2ZDYxOWFjYTc1ODdhMzRlNWZiNDZmNjU0NTQ0My5wbmc=)
此时的更新函数为:
![[work] Weight Decay 权值衰减 [work] Weight Decay 权值衰减](/default/index/img?u=aHR0cHM6Ly9waWFuc2hlbi5jb20vaW1hZ2VzLzQwMS84ZjY1Yjk0YjlhZjk4MTkwODAwZDMwYjBkNjIyNzk4OS5wbmc=)
这样则会使权重衰减。
之三:
![[work] Weight Decay 权值衰减 [work] Weight Decay 权值衰减](/default/index/img?u=aHR0cHM6Ly9waWFuc2hlbi5jb20vaW1hZ2VzLzEwMC9jODJlNjQ2N2Y2ZmNlNzFiMGQ3MWU1ZjFkYTY1Yjg0Yy5wbmc=)
![[work] Weight Decay 权值衰减 [work] Weight Decay 权值衰减](/default/index/img?u=aHR0cHM6Ly9waWFuc2hlbi5jb20vaW1hZ2VzLzI2MC8wNjdmNmE0MmU4MmFlOTIxOWM2NGIzZWQ0MjkxNDcyNC5wbmc=)
![[work] Weight Decay 权值衰减 [work] Weight Decay 权值衰减](/default/index/img?u=aHR0cHM6Ly9waWFuc2hlbi5jb20vaW1hZ2VzLzQzOS84YzFiM2FiYWEzNmQ1NGQzNTJhODU1MTVlNWQ0YzI4Ny5wbmc=)