神经网络中的**函数

$t a n h (z) = \frac{e^{z} - e^{- z}}{e^{z} + e^{- z}}$ 效果严格地比 $s i g m o i d$ 函数好，因为该函数的对称中心在 $(0, 0)$ ，具有将数据归一化为0均值的效果。当然，二分类的输出层的**函数还是一般用 $s i g m o i d (z)$ ，因为 $s i g m o d$ 函数能将输出值映射到 $0 \sim 1$ 之间（概率值）
$R e l u (z) = m a x (0, z)$ 出现后，神经网络默认都用 $R e l u$ 函数（rectified linear）来作为**函数。此时一般默认 $z > 0$
$l e a k y (z) = m a x (0.01 z, z)$ 可以避免 $z < 0$ 时斜率为零的情况输出层有时也用线性**函数（房价预测）

1. Sigmoid activation function

图1.1 **函数-sigmoid

\begin{matrix} (1-1) & \begin{aligned} a & = g (z) \\ = \frac{1}{1 + e^{- z}} \end{aligned} \end{matrix}

\begin{matrix} (1-2) & \begin{aligned} g^{'} (z) & = \frac{d}{d z} g (z) \\ = \frac{e^{- z}}{1 + e^{- z}} \\ = \frac{1}{1 + e^{- z}} (1 - \frac{1}{1 + e^{- z}}) \\ = g (z) (1 - g (z)) \\ = a (1 - a) \end{aligned} \end{matrix}

2. Tanh activation function

图2.1 **函数-tanh

\begin{matrix} (2-1) & \begin{aligned} a & = g (z) \\ = \frac{e^{z} - e^{- z}}{e^{z} + e^{- z}} \end{aligned} \end{matrix}

\begin{matrix} (2-2) & \begin{aligned} g^{'} (z) & = \frac{d}{d z} g (z) \\ = \frac{e^{- z}}{1 + e^{- z}} \\ = \frac{{(e^{z} + e^{- z})}^{2} - {(e^{z} - e^{- z})}^{2}}{{(e^{z} + e^{- z})}^{2}} \\ = 1 - {(g (z))}^{2} \\ = 1 - a^{2} \end{aligned} \end{matrix}

3. ReLU and Leaky ReLU

图3.1 **函数-ReLU
ReLU:

\begin{matrix} (3-1) & \begin{aligned} a & = g (z) \\ = m a x (0, z) \end{aligned} \end{matrix}

\begin{aligned} g^{'} (z) & = \frac{d}{d z} g (z) \\ (3-2) & = {\begin{aligned} 0 i f z < 0 \\ 1 i f z \geq 0 \end{aligned} \end{aligned}

Leaky ReLU:
神经网络中的**函数

图3.2 **函数-Leaky ReLU

\begin{matrix} (3-3) & \begin{aligned} a & = g (z) \\ = m a x (0.01 z, z) \end{aligned} \end{matrix}

\begin{aligned} g^{'} (z) & = \frac{d}{d z} g (z) \\ (3-4) & = {\begin{aligned} 0.01 i f z < 0 \\ 1 i f z \geq 0 \end{aligned} \end{aligned}

4.选择**函数的准则

如果处理的问题是二分类问题，输出为0和1，那么输出层选择sigmoid函数，其他神经元选择ReLU(有时也可用tanh)，理论上Leaky ReLU比ReLU好，但是实践中差不多。

神经网络中的**函数

1. Sigmoid activation function

2. Tanh activation function

3. ReLU and Leaky ReLU

4.选择**函数的准则

相关推荐