多层感知机

随机梯度下降：

公式；
山书学习[第一次笔记]

标量计算
山书学习[第一次笔记]

矢量计算
山书学习[第一次笔记]
两者相比较之后，后者的速度更快。

softmax 是用来处理多类别分类的。
公式：
山书学习[第一次笔记]

这样子对输出进行处理之后能保证输出结果在0和1之间。
公式：
山书学习[第一次笔记]

这样子做，表示对同一组数据进行三次不同的运算，算出的结果分别代表与不同物品相同的概率。

这样，我们有了模型，然后就是怎么训练的问题了，涉及到训练，就需要考虑损失函数，在之前的线性方程中，结果只有一个，所以能用平方差去度量，但是这里有多个输出结果，导致平方差不能很好的度量机器的错误程度。
所以这里引进一个新的损失函数交叉熵。

公式：
山书学习[第一次笔记]
这样，能让非正确答案，所预测出来的答案失效，换而言之不影响交叉熵。

多层感知机：就好是多个迭代的单层，每一层都是将前一层的输出当作输入，然后进行运算，得出结果，再将结果放入**函数，再将结果作为下一层的输入。

ReLu函数：
山书学习[第一次笔记]

山书学习[第一次笔记]
公式：

导数：
山书学习[第一次笔记]

因为他的导数很好求，可以直接表示，所以这个函数用于求导，训练非常方便。

山书学习[第一次笔记]
导数：

山书学习[第一次笔记]

**函数的意义在于会让结果不会过大，使训练出来的模型更加合理。