机器学习面试常见问题--线性回归、逻辑回归、交叉熵、多分类

1,线性回归与逻辑回归区别?

  • 在拟合数据上,线性回归是用一条线直接拟合训练数据,而逻辑回归先利用sigmoid函数将数据映射为相应分类的概率拟合概率;
  • 在学习策略上,线性回归利用最小二乘法使损失函数(均方误差)最小化,而逻辑回归利用梯度下降法使损失函数(最大似然函数/交叉熵)最小化,即求所有训练样本的条件概率之积的最大值。

2,为什么用对数似然函数?
使用最大似然函数时,很多样本的概率需要连乘,概率为(0,1)间的数,连乘会越来越小趋近于0(即梯度消失问题),利用log变换可以将连乘变为连加,很好的改善了梯度消失问题。

3,什么是信息熵、交叉熵?

  • 信息熵代表的是随机变量或整个系统的不确定性,熵越大,随机变量或系统的不确定性就越大。另外信息熵代表根据真实分布,需要消除整个系统不确定性付出的代价,信息熵越大需要付出的代价就越大说明原来越不稳定。
  • 交叉熵则是用来衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的代价。
    交叉熵的公式为
    机器学习面试常见问题--线性回归、逻辑回归、交叉熵、多分类
    其中p为真实分布下的概率,q为非真实分布下假定的概率,交叉熵越低则说明这个策略就越好,假定的分布就越接近真实分布,所以在逻辑回归中我们最小化交叉熵。在极端情况下当 p = q 时,交叉熵 = 信息熵,为最优策略。

4,既然有了交叉熵,推一下多分类逻辑回归损失函数的公式吧
多分类问题的两种解决方案:

  • 一对多分类器
    根据每个类别,都建立一个二分类器,带有这个类别的样本标记为正样本1,带有其他类别的样本标记为负样本0。假如我们有n个类别,最后我们就得到了n个针对不同标记的普通的logistic分类器。
    在预测样本时,根据这n个分类器预测分别为类别 i时的概率pi,最后我们取pi中最大的那个概率对应的类别作为我们的待预测样本类别。
  • 构建多分类的损失函数
    首先需要引入softmax,即把所有输出映射为相加为1的相应类别可能的概率值。
    机器学习面试常见问题--线性回归、逻辑回归、交叉熵、多分类
    那么根据3中交叉熵的公式有多分类损失函数公式为:
    机器学习面试常见问题--线性回归、逻辑回归、交叉熵、多分类
    其中当yi真实值为c时,sign(yi = c)为1,否则为0。