【NLP复习】逻辑回归的原理、推导和常见问题
逻辑回归:假设数据服从伯努利分布(0-1分布),通过极大似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。(用回归的方式求概率p,根据p和阈值求二分类结果,所以叫他回归但实际是分类)
预测函数、损失函数、梯度下降推导:
常见问题:
-
为什么用sigmoid函数?
- 如果选择单位阶跃函数的话,它是不连续的不可微。而如果选择sigmoid函数,它是连续的
- sigmoid能够将z转化为一个接近0或1的值。
-
LR的假设是什么?
- 一是:假设数据服从伯努利分布
- 二是:假设模型的输出值是样本为正例的概率
-
为什么LR中使用交叉熵损失函数而不使用MSE(均方误差)损失函数?
- MSE求梯度跟sigmoid有关,模型的输出接近0或者1时,σ′(z)就会非常小,接近0,使得求得的梯度很小,损失函数收敛的很慢,容易出现梯度消失。
- MSE的导数是非凸函数,求解最优解困难(参考链接)
- MSE求梯度跟sigmoid有关,模型的输出接近0或者1时,σ′(z)就会非常小,接近0,使得求得的梯度很小,损失函数收敛的很慢,容易出现梯度消失。
-
逻辑回归与极大似然估计的关系?
- 最大似然估计就是通过已知结果去反推最大概率导致该结果的参数。
- 逻辑回归(监督学习)的训练标签就是已知结果的,从已知结果入手,去反推能获得最大概率的结果参数
,只要我们得出了这个参数,那我们的模型就自然可以很准确的预测未知的数据了。
- 逻辑回归的优缺点
- 优点:简单;可解释;对数函数任意阶可导
- 缺点:准确度不够高;无法自动选特征
【参考资料】