神经网络介绍

概述

以监督学习为例，假设我们有训练样本集 $(x_{i}, y_{i})$ ,那么神经网络算法能够提供一种复杂且非线性的假设模型 $h_{W, b} (x)$ , 它具有参数 $W, b$ , 可以以此参数来拟合我们的数据。
为了描述神经网络（neural networks），我们先从最简单的神经网络讲起，这个神经网络仅由一个“神经元”构成，以下就是这个“神经元”的图示：

这个“神经元”是一个以

x_{1}, x_{2}, x_{3}

及截距+1为输入值的运算单元，其输出为

h_{W, b} (x) = f (W^{T} x + b) = f (\sum_{i = 1}^{3} W_{i} x_{i} + b_{i})

, 其中函数f被称为“**函数”。在本教程中，我们选用sigmoid函数作为**函数

f (.)

f (z) = \frac{1}{1 + e x p (- z)}

可以看出，这个单一“神经元”的输入输出映射关系其实就是一个逻辑回归（logistic regression）。
虽然本系列教程采用sigmoid函数，但你也可以选择双曲正切函数（tanh）：

f (z) = t a n h (z) = \frac{(e^{z} - e^{- z})}{(e^{z} + e^{- z})}

以下分别是sigmoid及tanh的函数图像

神经网络介绍

t a n h (z)

函数是sigmoid函数的一种变体，它的取值范围是[-1,1],而不是sigmoid函数的[0,1]。

注意，我们用单独的参数b来表示截距。
最后要说明的是，有一个属性我们以后会经常用到：如果选择 $f (z) = \frac{1}{1 + e x p (- z)}$ 也就是sigmoid函数，那么它的导数就是
$f^{'} (z) = f (z) (1 - f (z))$ (如果选择tanh函数，那它的导数就是
$f^{'} (z) = 1 - (f (z))^{2} ）$ , 你可以根据sigmoid（或tanh）函数的定义自行推导这个等式。

神经网络模型

所谓神经网络就是将许多个单一“神经元”联结在一起，这样，一个“神经元”的输出就可以是另一个“神经元”的输入。例如，下图就是一个简单的神经网络：

我们使用圆圈来表示神经网络的输入，标上“+1”的圆圈被称为偏值节点，也就是截距项。神经网络最左边的一层叫做输入层，最右边的一层叫做输出层，本例中输出层只有一个节点。中间所有节点组成的一层叫做隐藏层（hidden layer），因为我们不能在训练样本集中观测到它们的值。同时可以看到，以上神经网络的例子中有3个输入单元（偏值单元不计在内），3个隐藏单元及一个输出单元。

下面将列出诸多的公式，这对于表达神经网络至关重要。如有可能深刻理解和尽可能的记住，对理解问题大有裨益。

我们用 $n_{l}$ 来表示网络的层次，本例中 $n_{l} = 3$ , 我们将第 $l$ 层记为 $L_{l}$ ，于是 $L_{1}$ 是输入层，输出层是 $L_{n l}$ 。本例神经网络有参数

(W, b) = (W^{(1)}, b^{(1)}, W^{(2)}, b^{(2)})

其中

W_{i j}^{(l)}

代表第

l

层第j单元与第

(l + 1)

层第i单元之间的联接参数，其实就是连接线上的权重。只是要注意第一个标号是下一层，后面我们会发现这样定义有一定的好处。

b_{i}^{(l)}

是第

l + 1

层第i单元的偏值项。因此在本例中

W^{(1)} \in R^{3 \times 3}, W^{(2)} \in R^{1 \times 3}

注意，没有其他单元连向偏值单元，因为他们总是输出+1。同时，我们用

s_{l}

表示第

l

层的节点数，偏值单元不计在内。
我们用

a_{i}^{(l)}

表示第l层第i单元的**值。当

l = 1

时，

a_{i}^{(l)} = x_{i}

，也就是第i个输入值。对于给定参数集合

W, b

，我们的神经网络就可以按照函数

h_{W, b} (x)

来计算输出结果。本例神经网络的计算步骤如下：

a_{1}^{(2)} = f (W_{11}^{(1)} x 1 + W_{12}^{(1)} x 2 + W_{13}^{(1)} x 3 + b_{1}^{(1)})

a_{2}^{(2)} = f (W_{21}^{(1)} x 1 + W_{22}^{(1)} x 2 + W_{23}^{(1)} x 3 + b_{2}^{(1)})

a_{3}^{(2)} = f (W_{31}^{(1)} x 1 + W_{32}^{(1)} x 2 + W_{33}^{(1)} x 3 + b_{3}^{(1)})

h_{W, b} (x) = a_{1}^{(3)} = f (W_{11}^{(2)} a_{1}^{(2)} + W_{12}^{(2)} a_{2}^{(2)} + W_{13}^{(2)} a_{3}^{(2)} + b_{1}^{(2)})

我们用 $z_{i}^{(l)}$ 表示第l层第i单元输入加权和（包括偏置单元），比如， $z_{i}^{(2)} = \sum_{j = 1}^{n} W_{i j}^{(1)} x_{j} + b_{i}^{(1)}$ ，则 $a_{i}^{(l)} = f (z_{i}^{(l)})$ 。
这样我们就可以得到一种更简洁的表示法。这里我们将**函数 $f (.) 扩展为用向量来表示$ ，即 $f ([z_{1}, z_{2}, z_{3}]) = [f (z_{1}), f (z_{2}), f (z_{3})]$ ，那么，上面的等式可以更简洁的表示为：

z^{(2)} = W^{(1)} x + b^{(1)}

a^{(2)} = f (z^{(2)})

z^{(3)} = W^{(2)} a^{(2)} + b^{(2)}

h_{W, b} (x) = a_{1}^{(3)} = f (z^{(3)})

我们将上面的计算步骤叫做前向传播（forward propagation）。回想一下，之前我们用

a^{(1)} = x

表示输入层的**值，那么给定第l层的**值

a^{(l)}

后，第l+1层的**值

a^{(l + 1)}

就可以按照下面步骤计算得到：

z^{(l + 1)} = W^{(l)} a^{(l)} + b^{(l)}

a^{(l + 1)} = f (z^{(l + 1})

将参数矩阵化，使用矩阵-向量运算方式，我们就可以利用线性代数的优势对神经网络进行快速求解。
目前为止，我们讨论了一种神经网络，我们也可以构建另一种结构的神经网络（这里结构指的是神经元之间的联接模式），也就是包含多个隐藏层的神经网络。最常见的一个例子是

n_{l}

层的神经网络，第 1 层是输入层，第

n_{l}

层是输出层，中间的每个层

l

与层

l + 1

紧密相联。这种模式下，要计算神经网络的输出结果，我们可以按照之前描述的等式，按部就班，进行前向传播，逐一计算第

L_{2}

层的所有**值，然后是第

L_{3}

层的**值，以此类推，直到第

L_{n_{l}}

层。这是一个前馈神经网络的例子，因为这种联接图没有闭环或回路。
神经网络也可以有多个输出单元。比如，下面的神经网络有两层隐藏层：

L_{2}

及

L_{3}

，输出层

L_{4}

有两个输出单元。

要求解这样的神经经网络，需要样本集

(x^{(i)}, y^{(i)})

，其中

y^{(i)} \in ℜ^{2}

。如果你想预测的输出是多个的，那这种神经网络很适用。（比如，在医疗诊断应用中，患者的体征指标就可以作为向量的输入值，而不同的输出值

y_{i}

可以表示不同的疾病存在与否。）

中英文对照

neural networks 神经网络
activation function **函数
hyperbolic tangent 双曲正切函数
bias units 偏置项
activation **值
forward propagation 前向传播
feedforward neural network 前馈神经网络(参照Mitchell的《机器学习》的翻译)

参考文献

http://deeplearning.stanford.edu/wiki/index.php/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C

概述

神经网络模型

中英文对照

参考文献

相关推荐