CTR 预测理论（十二）：L1 正则相比于 L2 更容易获得稀疏解原因总结

最近复习正则约束，考虑到从未本质上考虑过 L1 正则稀疏性问题，现查阅相关资料，总结整理如下：

1. 从优化问题来看

首先，我们要优化的是这个问题 $\min\limits_w E_D(w) + \lambda E_R(w)$ 。

其次， $\min\limits_w E_D(w) + \lambda E_R(w)$ 和 $\min\limits_w E_D(w) \ \ \ \ \ s.t. E_R(w) \leqslant \eta$

这个优化问题是等价的，即对一个特定的 $\lambda$ 总存在一个 $\eta$ 使得这两个问题是等价的（这个是优化里的知识）。

最后，下面这个图表达的其实

$\min\limits_w E_D(w) \\s.t. E_R(w) \leqslant \eta$

这个优化问题，把 $w$ 的解限制在黄色区域内，同时使得经验损失尽可能小。

CTR 预测理论（十二）：L1 正则相比于 L2 更容易获得稀疏解原因总结

下图是一个更直观的解读：

CTR 预测理论（十二）：L1 正则相比于 L2 更容易获得稀疏解原因总结

CTR 预测理论（十二）：L1 正则相比于 L2 更容易获得稀疏解原因总结

CTR 预测理论（十二）：L1 正则相比于 L2 更容易获得稀疏解原因总结