损失函数

我们在逻辑回归中用到的损失函数是：

L (\hat{y}, y) = - y \log (\hat{y}) - (1 - y) \log (1 - \hat{y})

为什么要用这个函数作为逻辑损失函数？当我们使用平方误差作为损失函数的时候，你
会想要让这个误差尽可能地小，对于这个逻辑回归损失函数，我们也想让它尽可能地小，为
了更好地理解这个损失函数怎么起作用，举两个例子：
当y = 1时损失函数

L = - \log (\hat{y})

，如果想要损失函数

L

尽可能得小，那么

\hat{y}

就要尽可能大，因为 sigmoid 函数取值[0,1]，所以

\hat{y}

会无限接近于 1。
当y = 0时损失函数

L (\hat{y}, y) = - (1 - y) \log (1 - \hat{y})

，如果想要损失函数

L

尽可能得小，那么

\hat{y}

就要尽可能小，因为 sigmoid 函数取值[0,1]，所以

\hat{y}

会无限接近于 0

成本函数

损失函数是在单个训练样本中定义的，它衡量的是算法在单个训练样本中表现如何，为了衡量算法在全部训练样本上的表现如何，我们需要定义一个算法的代价函数，算法的代价函数是对m个样本的损失函数求和然后除以m:
深度学习反向传播公式推导

逻辑回归中的梯度下降

假设样本只有两个特征 $x_{1}$ 和 $x_{2}$ ，为了计算z，我们需要输入参数 $w_{1}$ 、 $w_{2}$ 和b，除此之外还有特征值 $x_{1}$ 和 $x_{2}$ 。因此z的计算公式为 $z = w_{1} x_{1} + w_{2} x_{2}$
回想一下逻辑回归的公式定义如下： $\hat{y} = a = σ (z)$ )其中 $z = w^{T} x + b$ ， $σ (z) = \frac{1}{1 + e^{- z}}$
损失函数：

L (\hat{y}, y) = - y \log (\hat{y}) - (1 - y) \log (1 - \hat{y})

代价函数：

假设现在只考虑单个样本的情况，单个样本的代价函数定义如下：

L (a, y) = - y \log (a) - (1 - y) \log (1 - a)

其中a是逻辑回归的输出， y是样本的标签值

w

和

b

的修正量可以表达如下

w = w - a \frac{\partial J (w, b)}{\partial w}

b = b - a \frac{\partial J (w, b)}{\partial b}

因为我们想要计算出的代价函数

L (a, y)

的导数，首先我们需要反向计算出代价函
数

L (a, y)

关于

a

的导数，在编写代码时，你只需要用 $d a$ 来表示 $\frac{d L (a, y)}{d a}$
通过微积分得到:

\frac{d L (a, y)}{d a} = - \frac{y}{a} + \frac{(1 - y)}{1 - a}

这个结果是通过对代价函数

L (a, y)

求a的偏导得出来的,求偏导时将 $y$ 看成常量, $a$ 看成变量,通过求导公式得到

\log a

的导数为

\frac{1}{a}

,这里的

\log a

我更倾向于用

\ln a

来表示,因为

\log a

求导过后会有个常量

\ln 10

,而

\ln a

求导过后就是

\frac{1}{a}

,虽然没有资料直接说明此处就是

\ln

但是通过对结果的反推,个人感觉应该是

\ln

函数。同理对

\log (1 - a)

求导得到

- \frac{1}{1 - a}

,为什么要加个”

-

”号,因为这是复合函数,对

\log

求完导后还要对

1 - a

求导,而

1 - a

对

a

求导得到的就是

- 1

,因此需要加一个”

-

“号。

此时，我们已经完成代价函数对

a

的偏导，接下来需要求代价函数对

z

的偏导。对

z

的求偏导，需要利用微分里的链式法则。即:

\frac{d L (a, y)}{d z} = \frac{d L}{d z} = \frac{d L}{d a} \cdot \frac{d a}{d z}

这里的

\frac{d L}{d a}

我们已经求出来过了，也就是

d a

,前面有提到

\hat{y} = a = σ (z)

,
而sigma函数的表达式又为

\frac{1}{1 + e^{- z}}

，即

a = σ (z) = \frac{1}{1 + e^{- z}}

这时我们就可以求出

a

对

z

的偏导数了，也就是说求出

\frac{d a}{d z}

，同样的我们这里还是利用求导公式将

1 + e^{- z}

看做一个整体，令

t = 1 + e^{- z}

，对

σ (z)

进行求导得到 $σ^{'} (z) = - \frac{1}{t^{2}}$ ,因为

t

也是的

z

函数,所以还需要对

t

进行求导，求导方式同样是使用复合函数的求导原则得到

t^{'} = - e^{- z}

,因此，

σ^{'} (a) = - \frac{1}{(1 + e^{- z})^{2}} \cdot (- e^{- z}) = \frac{e^{- z}}{(1 + e^{- z})^{2}} = \frac{1 + e^{- z} - 1}{(1 + e^{- z})^{2}} = a - a^{2}

,为什么结果会变成

a - a^{2}

，因为我们定义的 $a = σ (z) = \frac{1}{1 + e^{- z}}$ ，所以

\frac{d a}{d z}

最终结果为

a - a^{2}

，再利用之前的链式法则，可以得到

\frac{d L (a, y)}{d z} = \frac{d L}{d a} \cdot \frac{d a}{d z} = (- \frac{y}{a} + \frac{(1 - y)}{1 - a}) \cdot (a - a^{2}) = a - y

接下来需求求解的是就是

d w = \frac{d L (a, y)}{d w}

，同样的还是利用链式法则我们可以得到

d w = \frac{d L (a, y)}{d w} = \frac{d L}{d w} = \frac{d L}{d a} \cdot \frac{d a}{d z} \cdot \frac{d z}{d w}

,在前面的过程中我们求出了

\frac{d L}{d a} 和 \frac{d a}{d z}

，现在我们需要求的就是

\frac{d z}{d w} ， 因 此 我 们 需 要 知 道 w 对 z 的 函 数

也就是

z = w x + b

，这样求

w 对 z

的偏导就很容易了，只需将

x

看成常量即可，得到

\frac{d z}{d w} = x

，所以

d w = d z \cdot x

，同样的方法可以求出

\frac{d z}{d b} = 1 ， 也 就 是 说 d b = d z

常见的求导公式

深度学习反向传播公式推导

深度学习反向传播公式推导

损失函数

成本函数

逻辑回归中的梯度下降

常见的求导公式

相关推荐