深度学习知识点整理（二）——神经网络理解 / 反向传播 / **函数 / 神经网络优化

linear f=Wx

2-layer NN f=W2max(0,W1x)

3-layer NN f=W3max(0,W2max(0,W1x))

注：更多隐藏单元的数目代表着更大的容量

sigmoid：

1）饱和神经元kill了梯度，所谓饱和就是指左下和右上的平缓区域，会造成梯度消失（梯度几乎为0）以及输出y的区分度不高 ----------------改进方式 BN
1. 输入不是以0为中心
3）幂函数计算费时
tanh:

神经元会饱和，但是以0为中心

tanh VS sigmoid

相同点
- 优点：平滑
- 优点：易于求导
- 缺点：幂运算相对耗时
- 缺点：导数值小于 1，反向传播易导致梯度消失（Gradient Vanishing）
- 对于 Sigmoid 函数来说，它的值域是 (0,1)，因此又有如下特点
  - 优点：可以作为概率，辅助模型解释
  - 缺点：输出值不以零为中心，可能导致模型收敛速度慢
Relu

1）不饱和

2）计算效率高

3）收敛速度快

4）比sigmoid更符合生物特性？

缺点：不是以0为中心的，

深度学习知识点整理（二）——神经网络理解 / 反向传播 / **函数 / 神经网络优化

如图，模型参数走绿色箭头能够最快收敛，但由于输入值的符号总是为正，所以模型参数可能走类似红色折线的箭头。如此一来，使用 Sigmoid 函数作为**函数的神经网络，收敛速度就会慢上不少了。

白化，PCA，数据中心化

注：不能全0初始化，因为这样无法打破对称性。