CTR 预测理论(十二):L1 正则相比于 L2 更容易获得稀疏解原因总结

最近复习正则约束,考虑到从未本质上考虑过 L1 正则稀疏性问题,现查阅相关资料,总结整理如下:

1. 从优化问题来看

首先,我们要优化的是这个问题 minwED(w)+λER(w)\min\limits_w E_D(w) + \lambda E_R(w)

其次, minwED(w)+λER(w)\min\limits_w E_D(w) + \lambda E_R(w)minwED(w)     s.t.ER(w)η\min\limits_w E_D(w) \ \ \ \ \ s.t. E_R(w) \leqslant \eta

这个优化问题是等价的,即对一个特定的 λ\lambda 总存在一个 η\eta​ 使得这两个问题是等价的(这个是优化里的知识)。

最后,下面这个图表达的其实

minwED(w)s.t.ER(w)η\min\limits_w E_D(w) \\s.t. E_R(w) \leqslant \eta​

这个优化问题,ww 的解限制在黄色区域内,同时使得经验损失尽可能小

CTR 预测理论(十二):L1 正则相比于 L2 更容易获得稀疏解原因总结

下图是一个更直观的解读:

CTR 预测理论(十二):L1 正则相比于 L2 更容易获得稀疏解原因总结

2. 从概率角度来看

CTR 预测理论(十二):L1 正则相比于 L2 更容易获得稀疏解原因总结

3. 从梯度角度来看

CTR 预测理论(十二):L1 正则相比于 L2 更容易获得稀疏解原因总结

参考文献

[1] l1 相比于 l2 为什么容易获得稀疏解? - 曹荣禹的回答

[2] l1 相比于 l2 为什么容易获得稀疏解? - 王小明的回答