L1,L2正则化

在一些优化问题上,损失函数后面都会加一个惩罚项进行正则化。例如,对于线性回归模型,用L1范数进行正则化的称为LASSO(Least Absolute Shrinkage and Selection Operator)回归;用L2范数进行正则化的成为岭回归(Ridge regression)

L1,L2正则化

回归模型中的W用来表示特征的系数,而正则化则是通过限制系数,对特征做了进一步约束。

  • L1范数约束可以使得W中产生大量的0值,将模型稀疏化,从而实现特征选择。
    关于特征选择的解释:如果W中出现较多的0值,意味着其对应的特征对整个模型不起作用,可以忽略,只选用系数非0 的特征,实现特征选择。
  • L2范数约束可以使得W中的值都偏小,从而防止模型过拟合,L1范数在一定程度上也可以防止模型过拟合。
    关于过拟合的解释:一般情况下,如果模型中的系数值较大,那么数据偏移一点就会对结果造成很大影响,相反地,如果参数都偏小,那么数据的偏移对结果造成的影响就不会很大,也就是说模型的抗扰动能力就会较强,能够适应不同的数据集,减小过拟合现象的发生。

至于为什么L1范式会产生0值?
直观解释:
L1,L2正则化

L1正则化模型的损失函数,其解大都出现在约束函数的“拐角“处,即很多系数为0的地方

L1,L2正则化

L2正则化模型的损失函数,其解出现在超平面的相交处,系数为0的概率降低。