Deep Learning Notes - 1.3浅层神经网络

单隐藏层的神经网络

一些约定

上标 $^{[i]}$ 指第 $i$ 层
上标 $^{(i)}$ 指第 $i$ 个样例
下标 $_{i}$ 指特定层中的第 $i$ 个节点
- 例如： $a_{j}^{[i]}$ 表示第 $i$ 层中的第 $j$ 个节点
通常输入层不看作一个标准的层，所以输入层常被记为第 $0$ 层

范例网络

其中 $a^{[0]}$ 为输入层， $a^{[1]}$ 为隐藏层， $a^{[2]}$ 为输出层。

神经网络的计算（一组训练样例）

Deep Learning Notes - 1.3浅层神经网络

每个神经元中，都会进行上图所示的计算，那么所有神经元的计算为：

z_{1}^{[1]} = w_{1}^{[1] T} x + b_{1}^{[1]}, a_{1}^{[1]} = σ (z_{1}^{[1]}) z_{2}^{[1]} = w_{2}^{[1] T} x + b_{2}^{[1]}, a_{2}^{[1]} = σ (z_{2}^{[1]}) z_{3}^{[1]} = w_{3}^{[1] T} x + b_{3}^{[1]}, a_{3}^{[1]} = σ (z_{3}^{[1]}) z_{4}^{[1]} = w_{4}^{[1] T} x + b_{4}^{[1]}, a_{4}^{[1]} = σ (z_{4}^{[1]})

向量化后为：

z^{[1]} = W^{[1]} x + b^{[1]} a^{[1]} = σ (z^{[1]}) z^{[2]} = W^{[2]} a^{[1]} + b^{[2]} a^{[2]} = σ (z^{[2]})

其中：

W^{[1]} = [\begin{matrix} - & w_{1}^{[1] T} & - \\ - & w_{2}^{[1] T} & - \\ - & w_{3}^{[1] T} & - \\ - & w_{4}^{[1] T} & - \end{matrix}]

x = [\begin{matrix} x_{1} \\ x_{2} \\ x_{3} \end{matrix}]

并且 $b$ 和 $z$ 均为纵向堆叠。

多组训练样例的向量化

假设一共有 $m$ 组样例，那么向量化之后如下：

Z^{[1]} = W^{[1]} A^{[0]} + b^{[1]} A^{[1]} = σ (Z^{[1]}) Z^{[2]} = W^{[2]} A^{[1]} + b^{[2]} A^{[2]} = σ (Z^{[2]})

其中： $X = A^{[0]}$

X = {[\begin{matrix} | & | & | \\ x^{(1)} & x^{(2)} & . . . & x^{(m)} \\ | & | & | \end{matrix}]}_{n_{x} \times m}

A^{[1]} = [\begin{matrix} | & | & | \\ a^{[1] (1)} & a^{[1] (2)} & . . . & a^{[1] (m)} \\ | & | & | \end{matrix}]

并且 $Z$ 也为横向堆叠。

**函数

为什么要使用**函数

如果不适用**函数，即对结果处理为 $g (z) = z$ ，那么最终输出层输出的是 $x$ 的线性组合，中间隐藏层便失去了意义（不如去掉）。

而只有面对回归问题时，线性**函数 $g (z) = z$ 才应用于输出层。

**函数 $σ (z)$

σ (z) = \frac{1}{1 + e^{- z}}

Deep Learning Notes - 1.3浅层神经网络

sigmod**函数的使用范围不大，仅在二元分类网络的输出层使用较多。

**函数 $t a n h (z)$

t a n h [z] = \frac{e^{z} - e^{- z}}{e^{z} + e^{- z}}

Deep Learning Notes - 1.3浅层神经网络

效果略好于sigmod函数，但使用也不常用，因为训练速度稍慢。

**函数 $R e L U (z)$

R e L U (z) = m a x (0, z)

Deep Learning Notes - 1.3浅层神经网络

此函数使用最为广泛，基本上作为默认使用。

**函数 $l e a k y R e L U (z)$

l e a k y R e L U (z) = m a x (c z, z)

一般 $c$ 取一个很小的数，例如 $0.01$ 。具体值需要根据训练情况而定。

Deep Learning Notes - 1.3浅层神经网络

此函数效果比ReLU要好，但是使用并不广泛。

梯度下降

向量化之后的计算过程：

d Z^{[2]} = A^{[2]} - Y d W^{[2]} = \frac{1}{m} d Z^{[2]} A^{[1]^{T}} d b^{[2]} = \frac{1}{m} n p . s u m (d Z^{[} 2], a x i s = 1, k e e p d i m s = T r u e) d Z^{[1]} = W^{[2]^{T}} d Z^{[2]} * g^{[1]^{'}} (z^{[1]}) d W^{[1]} = \frac{1}{m} d Z^{[1]} X^{T} d b^{[1]} = \frac{1}{m} n p . s u m (d Z^{[1]}, a x i s = 1, k e e p d i m s = T r u e)

上式中的 $*$ 是指逐个相乘。

随机初始化

矩阵 $W$ 需要随机化，而 $b$ 置为全零就可以了。

W^{[1]} = n p . r a n d o m . r a n d n ((2, 2)) * 0.01 b^{[1]} = n p . z e r o s ((2, 1)) W^{[2]} = n p . r a n d o m . r a n d n ((1, 2)) * 0.01 b^{[2]} = 0

Deep Learning Notes - 1.3浅层神经网络

Deep Learning Notes - 1.3浅层神经网络

单隐藏层的神经网络

一些约定

范例网络

神经网络的计算（一组训练样例）

多组训练样例的向量化

**函数

为什么要使用**函数

**函数σ(z)σ(z)

**函数tanh(z)tanh(z)

**函数ReLU(z)ReLU(z)

**函数leakyReLU(z)leakyReLU(z)

梯度下降

随机初始化

相关推荐

**函数 $σ (z)$

**函数 $t a n h (z)$

**函数 $R e L U (z)$

**函数 $l e a k y R e L U (z)$