L1，L2正则化

在一些优化问题上，损失函数后面都会加一个惩罚项进行正则化。例如，对于线性回归模型，用L1范数进行正则化的称为LASSO(Least Absolute Shrinkage and Selection Operator)回归；用L2范数进行正则化的成为岭回归（Ridge regression）

L1，L2正则化

回归模型中的W用来表示特征的系数，而正则化则是通过限制系数，对特征做了进一步约束。

L1范数约束可以使得W中产生大量的0值，将模型稀疏化，从而实现特征选择。
关于特征选择的解释：如果W中出现较多的0值，意味着其对应的特征对整个模型不起作用，可以忽略，只选用系数非0 的特征，实现特征选择。
L2范数约束可以使得W中的值都偏小，从而防止模型过拟合，L1范数在一定程度上也可以防止模型过拟合。
关于过拟合的解释：一般情况下，如果模型中的系数值较大，那么数据偏移一点就会对结果造成很大影响，相反地，如果参数都偏小，那么数据的偏移对结果造成的影响就不会很大，也就是说模型的抗扰动能力就会较强，能够适应不同的数据集，减小过拟合现象的发生。

至于为什么L1范式会产生0值?
直观解释：
L1，L2正则化

L1正则化模型的损失函数，其解大都出现在约束函数的“拐角“处，即很多系数为0的地方

L1，L2正则化

L2正则化模型的损失函数，其解出现在超平面的相交处，系数为0的概率降低。