[知乎]机器学习中使用正则化来防止过拟合是什么原理？

我们相当于是给模型参数w 添加了一个协方差为1/alpha 的零均值高斯分布先验。对于alpha =0，也就是不添加正则化约束，则相当于参数的高斯先验分布有着无穷大的协方差，那么这个先验约束则会非常弱，模型为了拟合所有的训练数据，w可以变得任意大不稳定。alpha越大，表明先验的高斯协方差越小，模型约稳定，相对的variance也越小。

作者：Alan Huang
链接：https://www.zhihu.com/question/20700829/answer/35306184
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

知乎用户

经典的是bias-variance decomposition，但个人认为这种解释更加倾向于直观理解；
PAC-learning 泛化界解释，这种解释是最透彻，最fundamental的；
Bayes先验解释，这种解释把正则变成先验，在我看来等于没解释。

摘录自：https://www.zhihu.com/question/20700829

[知乎]机器学习中使用正则化来防止过拟合是什么原理？

相关推荐