《机器学习中的数学》——逻辑（斯特）回归

摘要

逻辑斯特回归同样属于监督学习，说到回归一般指的是对连续值的预测，这里的逻辑斯特回归用来解决分类问题，此篇博客主要以二分类为例子分析。
例子如下：
横坐标表示肿瘤大小，纵坐标表示是否为恶性肿瘤。
《机器学习中的数学》——逻辑（斯特）回归
可以看到线性回归得到的一条直线中加上一个阈值（大于某一值取正样本，反之取负样本）可以对这8个样本点有一个比较明确的分类，如下如图：
但是这个方法对噪声点很敏感，如果我们增加三个样本点，得到一个新的拟合直线：
《机器学习中的数学》——逻辑（斯特）回归
再用刚才的阈值来划分时发现，新添加的样本被判断错了，鲁棒性不够，由此可见在线性回归中很难找一个绝对的值来严格划分样本结果，此时使用逻辑斯特回归来解决。

问题分析

逻辑斯特回归利用一个相对的值（线性回归不能绝对的确定结果）——概率，来对每一个样本点预测，它的输出被映射到 $[0,1]$ 上，是一个连续值。此映射归功于sigmoid函数：
$y=\frac{1}{1+e^{-x}}$
《机器学习中的数学》——逻辑（斯特）回归
逻辑斯特的做法是：将线性回归的结果映射到sigmoid函数可以得到每一个样本点的概率值。但是需要一组好的参数来将样本分开，这里的参数就是判定边界的参数。
接下来讨论一个概念——判定边界,就是在样本集中分类的边界。
《机器学习中的数学》——逻辑（斯特）回归如图线性回归中，判定边界为一条直线，我们假设为 $y=-3+x_1+x_2$ ，当 $y=0$ 时，直线将样本划分为两类：

其中： $h_\theta(x)=g(\theta_0+\theta_1x_1+\theta_2x_2)$
表示将线性回归的结果映射到sigmoid函数， $h_\theta(x)$ 输出一个 $[0,1]$ 的概率值， $y=0$ 为此时的判定边界，在直线上方是正样本，下方为负样本，假设的参数 $\theta$ 是要学习的。
《机器学习中的数学》——逻辑（斯特）回归
同理当我们造出高次项的特征时，非线性的判定边界也可以是曲线。当 $y=0$ 时为圆的边， $y>0$ 为圆的外面， $y<0$ 为圆的里面，这样可以很好的分类样本集。
逻辑斯特回归的损失函数：
线性回归中利用方差的方法不适合，因为逻辑回归的是分类问题，所求得结果是概率，在 $[0，1]$ 之间导致 $h_\theta(x)$ 是一个不光滑的曲线（非凸函数，有局部最小点，梯度下降法不能用），此时使用互熵损失：
$Cost(h_\theta(x),y)=\left\{ \begin{array}{rcl} -log(h_\theta(x)) &if: &y=1\\ -log(1-h_\theta(x)) &if: &y=0\\ \end{array} \right.$
当 $y=1$ 结果是正样本时, $x$ 越接近1, $Cost$ 函数越小，损失越小：《机器学习中的数学》——逻辑（斯特）回归
当 $y=0$ 结果是正样本时, $x$ 越接近0, $Cost$ 函数越小，损失越小：

可得出逻辑斯特回归的损失函数：
$J(\theta)=\frac{1}{m}\sum_{i=1}^mCost(h_\theta(x^{(i)}),y^{(i)})\\ =-\frac{1}{m}\sum_{i=1}^m[(y^{i}logh_\theta(x^{(i)})+(1-y^{i})log (1-h_\theta(x^{(i)}))]$
别忘了L2正则化：
$J(\theta) =-\frac{1}{m}\sum_{i=1}^m[(y^{i}logh_\theta(x^{(i)})+(1-y^{i})log (1-h_\theta(x^{(i)}))]+\frac{\lambda}{2m}\sum_{i=1}^m\theta_i^2$
接下来是梯度下降（ $J_\theta(x)$ 是一个凸函数，只存在一个最优解）法寻找最优解：
$\theta_i=\theta_i-\alpha\frac{\partial}{\partial \theta_i}J(\theta)$
多分类问题是可以构建多个分类器，例如：对A和{B，C}分类构建分类器，然后再对B，C构建分类器。