机器学习篇——正则化

l1和l2正则化
1、作用
损失函数一般为经验风险加上结构风险,其中结构风险最小化即正则化,减少过拟合
正则化可以看做先验,
2、应用
线性回归中,lasso回归:正则项为λw的1范数
rige回归:正则项为λw的2范数
svm:0.5w的2范数,即间隔
决策树:α乘以叶子数
xgboost:
l1正则项,叶子节点的个数
L2正则项,平滑各叶子节点的预测值
机器学习篇——正则化
神经网络:
损失函数中引入正则项
CNN中的卷积和池化也是一种先验
3、l1正则化求梯度
使用sgn(符号函数)
proximal gradient descent近端梯度下降
机器学习篇——正则化
4、l1、l2区别
L1减少一个常量(sgn(w)为1或-1,故为常量),而L2减少的是权重的一个固定的比例;如果权重本身很大的话,L2减少的比L1减少的多,若权重小,则L1减少的更多。多以L1倾向于集中在少部分重要的连接上(w小)。这里要注意的是:sgn(w)在w=0时不可导,故要事先令sgn(w)在w=0时的导数为0。