简述为什么输出层在使用sigmoid做激励函数时, 代价函数用交叉熵比平方差更好

符号：

C ：代价函数

w：weight

b：bias

η：学习速率

在使用平方差作代价函数时：

简述为什么输出层在使用sigmoid做激励函数时, 代价函数用交叉熵比平方差更好

a = σ(z)，其中 z = wx + b

其用链式法则来求权重和偏置的偏导数就有（这里求导过程我就不写了，毕竟从 "宏观" 上来理解一个问题我觉得会更重要。如果想去了解完整的过程可以去参考其他资料，如这本书，有中文版的，可以在网上找到）：

简述为什么输出层在使用sigmoid做激励函数时, 代价函数用交叉熵比平方差更好

sigmoid函数图像如下：

简述为什么输出层在使用sigmoid做激励函数时, 代价函数用交叉熵比平方差更好

而梯度下降更新规则为：

简述为什么输出层在使用sigmoid做激励函数时, 代价函数用交叉熵比平方差更好

由 sigmoid 函数的图像我们可以知道，当 z 很小 ( 远小于0 ) 或者 z 很大 ( 远大于0 ) 时，σ′(z) 趋于 0，所以代价函数对于 w 和 b 的偏导数就会很小。所以 w 和 b 就会产生的变化很小，故，学习缓慢。

而使用交叉熵作代价函数时：

简述为什么输出层在使用sigmoid做激励函数时, 代价函数用交叉熵比平方差更好

其用链式法则来求权重和偏置的偏导数就有：

简述为什么输出层在使用sigmoid做激励函数时, 代价函数用交叉熵比平方差更好

式中没有 σ′(z) ，其实σ′(z) 在链式求导时被约去了，所以不会出现学习缓慢的问题 (除非在最后结果收敛的时候) 。它告诉我们权重学习的速度受到 σ(z) − y，也就是输出中的误差的控制。更大的误差，会有更快的学习速度。这是我们直觉上期待的结果。

注：使用平方差会出现这样的情况：在结果未收敛时就有一段 Epoch 学习缓慢，Cost 下降缓慢

简述为什么输出层在使用sigmoid做激励函数时, 代价函数用交叉熵比平方差更好

而对应使用交叉熵：不会出现上述情况

简述为什么输出层在使用sigmoid做激励函数时, 代价函数用交叉熵比平方差更好

扩展一下：其实还有一种组合方式也可以防止我们遇到学习缓慢的问题：

具有对数似然代价的柔性最大值输出层

具有对数似然代价的柔性最大值输出层和一个具有交叉熵代价的 S 型输出层效果差不多，有兴趣的朋友可以自己去了解一下，这里就不阐述了。

完！

转载请注明出处，谢谢！