【机器学习】正则化
正则化项是损失函数的附加标准,以确保不会过度拟合。
这样做的目的是:权重不应该过大,如果权重太大,特征上小小的变化就会引起预测较大的改变;也不希望给某个特征过大的权重,因为如果它有太大的权重,就会有很大的影响,其他的特征就起不到应有的作用;我们也希望无用的特征其权重为0.
正则化项有多种计算方式:
L1正则:绝对值求和
L2正则:平方和
区别在于:平方和权重给予较大值更多的惩罚
p-范数:p次方和再开p次方根。
较小的p,p<2时会产生稀疏的向量,较大的p突出大的权重。1-范数具有特征选择的功能。
总结:
- L1很受欢迎,因为它往往导致稀疏解决方案(即大量零权重),但是他不可导,因此仅适用于梯度下降求解法。
- L2很受欢迎,因为对于某些损失函数,可以直接求解(不需要梯度下降,但通常仍然需要迭代求解)。
- Lp不太受欢迎,因为对权重缩减不够。
【通用名称】
- 最小二乘:平方损失
- 岭回归:L2正则化的平方损失
- Lasso回归:L1正则化的平方损失
- 弹性回归:L1和L2正则化平方损失的组合
- 逻辑斯蒂回归:logistic损失