人工神经网络（ANN）

引言

人的大脑由大约 800 亿个神经元组成，每个神经元通过突触与其他神经元相连接，接收这些神经元传来的电信号和化学信号，对信号汇总处理之后输出到其他神经元。大脑通过神经元之间的协作来完成它的功能，神经元之间的连接关系是在进化过程中以及生长发育、长期的学习、对外界环境的剌激反馈中建立起来的。
人工神经网络是对这种机制的简单模拟它由多个相互连接的神经元构成，这些神经元从其他相连的神经元接收输入数据’，通过计算产生输出数据，这些输出数据可能会送入其神经元继续处理。
人工神经网络应用广泛。除了用于模式识别之外，它还可以用于求解函数的极值、自动控制等问题到目前为止有种不同结构的神经网络，典型的有多层前馈型神经网络（可称为全连接神经网络）、卷积神经网络（CNN)、循环神经网络（RNN）等。
神经网络是一种很古老的算法，它最初产生的目的是制造能模拟大脑的机器。神经网络逐渐兴起于二十世纪八九十年代，应用得非常广泛。但由于各种原因，在 90年代的后期应用减少了（期间SVM流行）。但是最近，神经网络又东山再起了。其中一个原因是：神经网络是计算量有些偏大的算法。然而大概由于近些年计算机的运行速度变快，才足以真正运行起大规模的神经网络。正是由于这个原因和其他一些我们后面会讨论到的技术因素，如今的神经网络对于许多应用来说是最先进的技术。

感知器

什么是感知器？

历史上，科学家一直希望模拟人的大脑，造出可以思考的机器。人为什么能够思考？科学家发现，原因在于人体的神经网络。

机器学习笔记-人工神经网络（artificial neural networks）

典型的神经元结构示意图
1、外部刺激通过神经末梢，转化为电信号，转导到神经细胞（又叫神经元）。
2、无数神经元构成神经中枢。
3、神经中枢综合各种信号，做出判断。
4、人体根据神经中枢的指令，对外部刺激做出反应。

既然思考的基础是神经元，如果能够"人造神经元"（artificial neuron），就能组成人工神经网络，模拟思考。上个世纪六十年代，提出了最早的"人造神经元"模型，叫做"感知器"（perceptron），直到今天还在用。

机器学习笔记-人工神经网络（artificial neural networks）

M-P神经元模型
上图的圆圈就代表一个感知器。它接受多个输入（x1，x2，x3...），产生一个输出（output），好比神经末梢感受各种外部环境的变化，最后产生电信号。

为了简化模型，我们约定每种输入只有两种可能：1 或 0。如果所有输入都是1，表示各种条件都成立，输出就是1；如果所有输入都是0，表示条件都不成立，输出就是0。

感知器的例子

下面来看一个例子。大山准备周末去杭州乐园玩，但是还拿不定主意。
他决定考虑三个因素。

1、天气(x1）：周末是否晴天？
2、同伴(x2)：能否找到人一起去？
3、价格(x3)：门票是否可承受？1

这就构成一个感知器。上面三个因素就是外部输入，最后的决定就是感知器的输出。如果三个因素都是 Yes（使用1表示），输出就是1（去参观）；如果都是 No（使用0表示），输出就是0（不去参观）。

权重和阈值

看到这里，你肯定会问：如果某些因素成立，另一些因素不成立，输出是什么？比如，周末是好天气，门票也不贵，但是大山找不到同伴，他还要不要去参观呢？

现实中，各种因素很少具有同等重要性：某些因素是决定性因素，另一些因素是次要因素。因此，可以给这些因素指定权重（weight），代表它们不同的重要性。

天气：权重为8

同伴：权重为4

价格：权重为4

上面的权重表示，天气是决定性因素，同伴和价格都是次要因素。

如果三个因素都为1，它们乘以权重的总和就是 8 + 4 + 4 = 16。如果天气和价格因素为1，同伴因素为0，总和就变为 8 + 0 + 4 = 12。

这时，还需要指定一个阈值（threshold）。如果总和大于阈值，感知器输出1，否则输出0。假定阈值为8，那么 12 > 8，小明决定去参观。阈值的高低代表了意愿的强烈，阈值越低就表示越想去，越高就越不想去。

上面的决策过程，使用数学表达如下。

机器学习笔记-人工神经网络（artificial neural networks）

上面公式中，x表示各种外部因素，w表示对应的权重。

多层前馈神经网络

网络结构

用于分类题时，神网络一般有多个层。第一层为输入层，对应输入向量，神经元的数量等于特征向量的维数，这个层不对数据进行处理，只是将输入向量传入下一层中进行计算。中间为隐含层，可能很多层（通常将除输入层、输出层之外的神经网络层都视为隐含层），最后一层是输出层，神经元的数量等于要分类的类别数，输入层的输入值用来做分类预测。

举个栗子！

机器学习笔记-人工神经网络（artificial neural networks）

一个简单的神经网络

由三层网络构成：

第一层：输入层（input）对应输入向量x,有3个神经元，写成分向量形式即（x1,x2,x3），它们对数据不进行任何处理，直接送到下一层。

第二层：隐含层（hidden）有4个神经元，接受数据为x,输出向量为y=（y1,y2,y3,y4）

第三层：输出层（output）接受数据为y,输出向量为z=（z1,z2)

第一层到第二层的权重矩阵为，第二层到第三层的权重矩阵为。权重矩阵的每一行为一个权重向量，是上一层所有神经元到本层某一个神经元的连接权重，这里的上标表示层数。