吴恩达深度学习 —— 3.7 为什么需要非线性**函数

事实证明,要让神经网络能够计算出有趣的函数,必须使用非线性**函数。

如下图所示是神经网络正向传播的方程,为什么不能直接去掉a[1]=g[1](z[1])a^{[1]}=g^{[1]}(z^{[1]})呢?去掉函数g(z)g(z),然后令a[1]=z[1]a^{[1]}=z^{[1]},或者令g[1]=z[1]g^{[1]}=z^{[1]},这有时候叫线性**函数,更学术一点的名字是,恒等**函数,因为它们就直接把输入值输出了。
吴恩达深度学习 —— 3.7 为什么需要非线性**函数
为了说明问题,我们看看a[2]=z[2]a^{[2]}=z^{[2]}会怎么样。事实证明,如果你这样做,这个模型的输出y或者y^\hat{y}只不过是输入特征x的线性组合。

如果要用线性**函数或者叫恒等**函数,那么神经网络只是把输入线性组合再输出。在深层神经网络中,事实证明,如果你使用线性**函数,或者如果没有**函数,无论神经网络有多少层,一直在做的只是计算线性**函数,所以还不如直接去掉全部隐藏层。

事实证明,如果在图中的神经网络中,在隐藏层中使用线性**函数,在输出层中使用sigmoid函数,那这个模型的复杂度和没有任何隐藏层的标准逻辑回归是一样的。要点在于,线性隐藏层一点用都没有,因为两个线性函数的组合本身就是线性函数。所以除非引入非线性,否则无法计算更有趣的函数,网络层数再多也不行。只有一个地方可以使用线性**函数g(z)=zg(z)=z,就是如果你要机器学习的是回归问题,回归问题中y是一个实数。比如说,想预测房地产价格,那么y不是0或者1,而是一个实数,那么在这里用线性**函数也许可行,所以你的输出y也是一个实数,从负无穷到正无穷。

但是神经网络中的隐藏单元不能用线性**函数,他们可以用Tanh或者ReLU或者其它的非线性**函数。所以唯一可以用线性**函数的地方通常就是输出层,除了这种情况,会在隐藏层用线性**函数的,可能除了与压缩有关的一些非常特殊的情况。