神经网络基础

二分分类

二分分类问题指数据样本的标签只有两种的分类问题。比如给出一张图片，判断图片的动物是否是猫。如果这张图片大小为64*64，颜色通道为RGB，那么可以定义这张图片的特征向量为所有像素的组合，特征向量的长度为3*64*64。

定义二分分类问题使用的数学符号。对于某个样本 $(x, y)$ ， $x \in R^{n_{x}}$ 是样本的特征向量， $y \in {0, 1}$ 是样本的标签。对于有m个样本的数据集 ${(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \dots, (x^{(m)}, y^{(m)})}$ ，第i个样本为 $(x^{(i)}, y^{(i)})$ 。使用矩阵 $X \in R^{n_{x} \times m}$ 来保存数据集的特征向量

X = [\begin{matrix} x^{(1)}, x^{(2)}, \dots, x^{(m)} \end{matrix}]

使用矩阵

Y \in R^{1 \times m}

来保存数据集的标签

X = [\begin{matrix} y^{(1)}, y^{(2)}, \dots, y^{(m)} \end{matrix}]

logistic 回归

logistic 回归是解决二分分类问题的一种解决方法，通过样本的特征向量计算出一个分数，通过分类来预测这个样本的标签，准确来说，这个分数表示样本的标签为1的概率。

定义参数 $w \in R^{n_{x}}$ ， $b \in R$ 。预测的结果 $\hat{y}$ 可以这样计算：

\hat{y} = w^{T} x + b

这样计算得到的

\hat{y}

在实数范围内，而概率的范围应该是

[0, 1]

，因此在此公式上加上sigmoid函数,

s i g m o i d (z) \in (0, 1)

。

\begin{aligned} z & = w^{T} x + b \\ \hat{y} & = s i g m o i d (z) = \frac{1}{1 + e^{- z}} \end{aligned}

sigmoid函数曲线如下图
神经网络基础

如果 $z \to - \infty$ ， $\hat{y} \to 0$ 。
如果 $z = 0$ ， $\hat{y} = 0.5$ 。
如果 $z \to + \infty$ ， $\hat{y} \to 1$ 。

logistic 回归损失函数

对于数据集 ${(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \dots, (x^{(m)}, y^{(m)})}$ ，我们希望对于第i个样本， ${\hat{y}}^{(i)} \approx y^{(i)}$ 。

定义损失函数（loss/error function）来表示预测结果与实际结果的误差

l (\hat{y}, y) = - (y l o g (\hat{y}) + (1 - y) l o g (1 - \hat{y}))

这个损失函数可以保证，当

\hat{y}

与

y

接近时，

l (\hat{y}, y) \approx 0

，当

\hat{y}

远离

y

时，

l (\hat{y}, y) \to + \infty

。

定义成本函数（cost function） $J (w, b)$ 表示数据集的预测结果与实际结果的误差

J (w, b) = \frac{1}{m} \sum_{i = 1}^{m} l ({\hat{y}}^{(i)}, y^{(i)}) = - \frac{1}{m} \sum_{i = 1}^{m} (y^{(i)} l o g ({\hat{y}}^{(i)}) + (1 - y^{(i)}) l o g (1 - {\hat{y}}^{(i)}))

梯度下降法

下图是成本函数 $J (w, b)$ 的图像
神经网络基础
成本函数 $J (w, b)$ 是凸函数，只有一个极小值，即全局最小值。机器学习的过程就是找到 $J (w, b)$ 函数最小值的w和b。通过不断进行如下操作，可以使得 $J (w, b)$ 函数值不断减少，这个过程的表现效果如同上图中的红点不断往谷底移动。

\begin{aligned} w & := w - α \frac{\partial J (w, b)}{\partial w} \\ b & := b - α \frac{\partial J (w, b)}{\partial b} \end{aligned}

其中，

α

是学习率，控制

J (w, b)

的下降速度。

\frac{\partial J (w, b)}{\partial w}

是w的梯度，用

d w

表示。

\frac{\partial J (w, b)}{\partial b}

是b的梯度，用

d b

表示。

计算图

根据导数的链式法则，导数可以反向传播，如图：
神经网络基础

logistic 回归的梯度下降法

对于一个样本的损失函数，logistic回归的梯度如下：
神经网络基础

对于m个样本，logistic回归的梯度只需累加后除以m。求logistic回归的梯度的算法如下：
神经网络基础

向量化

使用向量化简化求logistic回归梯度的过程（减少一个循环）
神经网络基础

向量化实现求 $J (w, b)$

\begin{aligned} X & = [\begin{matrix} x^{(1)}, x^{(2)}, \dots, x^{(m)} \end{matrix}] \\ Y & = [\begin{matrix} y^{(1)}, y^{(2)}, \dots, y^{(m)} \end{matrix}] \\ Z & = w^{T} X + b \\ A & = s i g m o i d (Z) \\ d Z & = A - Y \\ d w & = \frac{1}{m} X d Z^{T} \\ d b & = \frac{1}{m} \sum_{i = 1}^{m} d Z^{(i)} \end{aligned}

向量化的logistic回归的梯度下降法
神经网络基础

logistic 损失函数解释

当 $y = 1$ 时， $\hat{y}$ 表示 $P (y = 1 | x)$ 。当 $y = 0$ 时， $1 - \hat{y}$ 表示 $P (y = 0 | x)$ 。合并起来

P (y | x) = {\hat{y}}^{y} (1 - \hat{y})^{1 - y}

我们期望

P (y | x)

尽可能大，两边取对数为

l o g P (y | x) = y l o g \hat{y} + (1 - y) l o g (1 - \hat{y})

因为我们求损失函数的最小值，因此两边加上负号。

如果训练集每个的标签概率是独立分布的，那么

P (label in training set) = \prod_{i = 1}^{m} P (y^{(i)} | x^{(i)})

根据极大似然估计法，要使概率最大，则log之后要最大化

l o g P (label in training set) = \sum_{i = 1}^{m} l o g P (y^{(i)} | x^{(i)})

最后加上负号改成求最小值，这便是logistic成本函数的由来。