冈萨雷斯《数字图像处理》学习笔记（6）--目标识别（基于神经网络）

一、二分类感知机

感知机模型

下图展示了二分类的感知机模型：
冈萨雷斯《数字图像处理》学习笔记（6）--目标识别（基于神经网络）
感知机模型决策函数：

f (x) = s i g n (\sum_{i = 1}^{n} ω_{i} x_{i} + ω_{n + 1})

其中sign(x)为符号函数，定义为如下：

s i g n (x) = {\begin{matrix} 1, x > 0 \\ 0, x < 0 \end{matrix}

感知机学习策略

损失函数的一个自然选择是误分类点的总数。但是，这样的损失函数不是参数的连续可导函数，不易优化。损失函数的另一个选择是误分类点到超平面S的总距离，这是感知机所采用的。为此，首先写出输入空间R”中任一点 $x_{0}$ 到超平面S的距离(和我们初中学的点到直线的距离公式类似，只是从二维扩充到n维，下面的 b 即上面模型中的 $ω_{n + 1}$ )：

\frac{1}{‖ ω ‖} | ω \cdot x_{0} + b |

这里，

‖ ω ‖

是

ω

的

L_{2}

范数。

其次，对于误分类的数据 $(x_{i}, y_{i})$ 来说，

- y_{i} (ω \cdot x_{i} + b) > 0

成立。因为当

ω \cdot x_{i} + b > 0

时，

y_{i} = - 1

,而当

ω \cdot x_{i} + b < 0

。时，

y_{i} = + 1

。因此，误分类点

x_{i}

到超平面S的距离是：

- \frac{1}{‖ ω ‖} y_{i} (ω \cdot x_{i} + b)

这样，假设超平面S的误分类点集合为M，且不考虑

\frac{1}{‖ ω ‖}

（因为

\frac{1}{‖ ω ‖}

始终为正，不影响二分类的结果，并能简化计算）那么损失函数可定义为:

L (ω, b) = - \sum_{x_{i} \in M} y_{i} (ω \cdot x_{i} + b)

感知机算法

感知机学习算法是误分类驱动的，具体采用随机梯度下降法。首先，任意选取一个超平面，然后用梯度下降法不断地极小化目标函数。极小化过程是一次随机选取一个误分类点使其梯度下降。
损失函数的梯度由下式给出：

{\begin{matrix} ▽_{w} L (ω, b) = - \sum_{x_{i} \in M} y_{i} x_{i} \\ ▽_{b} L (ω, b) = - \sum_{x_{i} \in M} y_{i} \end{matrix}

随机选取一个误分类点

(x_{i}, y_{i})

对

ω

和 b 更新：

{\begin{matrix} ω \leftarrow ω + η y_{i} x_{i} \\ b \leftarrow b + η y_{i} \end{matrix}

其中，

η

为学习率。这样通过不断更新参数，使得损失函数逐渐下降到最小值0即可。

二、多层前馈神经网络

神经网络模型

下图展示了神经网络的结构：
冈萨雷斯《数字图像处理》学习笔记（6）--目标识别（基于神经网络）
最后输出层输出的值可当做属于这个类的概率，因此哪个值高就可认为它属于这类的概率高。而每个神经元的的形式与前面讨论的感知机模型类似，只是**函数变成了如下的 ‘S形’ 函数：

h_{j} (I_{j}) = \frac{1}{1 + e^{\frac{- (I_{j} + θ_{j})}{θ_{0}}}}

其中，

I_{j}

是网络第 j 层每个节点**元素的输入，

θ_{j}

是偏移量，

θ_{0}

控制 S 函数的形状。上式对应的S函数如下：
冈萨雷斯《数字图像处理》学习笔记（6）--目标识别（基于神经网络）

任何一层中的节点输入都是来自前一层输出的加权和，令 K 层为 J 层的前一层，则有：

I_{j} = \sum_{k = 1}^{N_{k}} w_{j k} O_{k} = \sum_{k = 1}^{N_{k}} w_{j k} h_{k} (I_{k})

其中，

O_{k}

为第 k 层的输出
故

h_{j} (I_{j})

又可写成如下形式：

h_{j} (I_{j}) = \frac{1}{1 + e^{\frac{- (\sum_{k = 1}^{N_{k}} w_{j k} O_{K} + θ_{j})}{θ_{0}}}}

神经网络策略

这里我们采用最简单的平方误差来定义损失函数，输出层Q中各节点的期望响应 $r_{q}$ 和相应的真实响应 $O_{q}$ 之间的总误差平方和如下：

E_{Q} = \frac{1}{2} \sum_{q = 1}^{N_{Q}} (r_{q} - O_{q})^{2}

其中，

N_{Q}

是输出层Q的节点数，

\frac{1}{2}

是为了后面取导数更为方便。

反向传播算法

以神经网络结构图为例（Q为输出层，P层在Q前一层，J层在P层前一层）。利用链式法则，我们有：

\begin{aligned} (1589) & △ w_{q p} & = - α \frac{\partial E_{Q}}{\partial w_{q p}} = - α \frac{\partial E_{Q}}{\partial I_{q}} \frac{\partial I_{q}}{\partial w_{q p}} \\ (1590) & = - α \frac{\partial E_{Q}}{\partial O_{q}} \frac{\partial O_{q}}{\partial I_{q}} \frac{\partial I_{q}}{\partial w_{q p}} \\ (1591) & = - α [- (r_{q} - O_{q})] h_{q}^{'} (I_{q}) O_{p} \\ (1592) & = α (r_{q} - O_{q}) h_{q}^{'} (I_{q}) O_{p} \\ (1593) & = α δ_{q} O_{p} \end{aligned}

其中 $δ_{q} = - \frac{\partial E_{Q}}{\partial I_{q}} = (r_{q} - O_{q}) h_{q}^{'} (I_{q})$ ， $△ w_{q p}$ 即参数更新项。
上面是输出层的，同理在隐藏层（内层）中也有：

△ w_{p j} = α δ_{p} O_{j}

其中

δ_{p} = - \frac{\partial E_{p}}{\partial I_{p}} = (r_{p} - O_{p}) h_{p}^{'} (I_{p})

但在隐藏层中我们无法知道

r_{p}

，

r_{p}

只有在输出层才有意义，因此我们需要替换掉这项。

δ_{p} = - \frac{\partial E_{p}}{\partial I_{p}} = - \frac{\partial E_{p}}{\partial O_{p}} \frac{\partial O_{p}}{\partial I_{p}} = - \frac{\partial E_{p}}{\partial O_{p}} h_{p}^{'} (I_{p})

而又有：

\begin{aligned} (1594) & - \frac{\partial E_{p}}{\partial O_{p}} & = - \sum_{q = 1}^{N_{q}} \frac{\partial E_{p}}{\partial I_{q}} \frac{\partial I_{q}}{\partial O_{p}} \\ (1595) & = \sum_{q = 1}^{N_{q}} (- \frac{\partial E_{p}}{\partial I_{q}}) \frac{\partial}{\partial O_{p}} \sum_{p = 1}^{N_{p}} w_{q p} O_{p} \\ (1596) & = \sum_{q = 1}^{N_{q}} δ_{q} w_{q p} \end{aligned}

因此，我们可以得到：

δ_{p} = \sum_{q = 1}^{N_{q}} δ_{q} w_{q p} h_{p}^{'} (I_{p})

我们知道对于 $y = \frac{1}{1 + e^{- x}}$ 这个函数，有 $y^{'} = y (1 - y)$

综上，对于输出层有：

△ w_{q p} = α (r_{q} - O_{q}) O_{q} (1 - O_{q}) O_{p}

对于隐藏层有：

△ w_{p j} = α \sum_{p = 1}^{N_{p}} δ_{p} w_{p j} O_{p} (1 - O_{p}) O_{j}