山书学习[第一次笔记]
多层感知机
随机梯度下降:
公式;
矢量计算与标量计算
标量计算
矢量计算
两者相比较之后,后者的速度更快。
Softmax与分类模型
softmax
softmax 是用来处理多类别分类的。
公式:
这样子对输出进行处理之后能保证输出结果在0和1之间。
公式:
这样子做,表示对同一组数据进行三次不同的运算,算出的结果分别代表与不同物品相同的概率。
这样,我们有了模型,然后就是怎么训练的问题了,涉及到训练,就需要考虑损失函数,在之前的线性方程中,结果只有一个,所以能用平方差去度量,但是这里有多个输出结果,导致平方差不能很好的度量机器的错误程度。
所以这里引进一个新的损失函数交叉熵。
交叉熵
公式:
这样,能让非正确答案,所预测出来的答案失效,换而言之不影响交叉熵。
多层感知机
多层感知机:就好是多个迭代的单层,每一层都是将前一层的输出当作输入,然后进行运算,得出结果,再将结果放入**函数,再将结果作为下一层的输入。
**函数
ReLu函数:
Sigmoid
公式:
导数:
因为他的导数很好求,可以直接表示,所以这个函数用于求导,训练非常方便。
tanh
导数:
**函数的意义在于会让结果不会过大,使训练出来的模型更加合理。