吴恩达深度学习 —— 3.7 为什么需要非线性**函数

事实证明，要让神经网络能够计算出有趣的函数，必须使用非线性**函数。

如下图所示是神经网络正向传播的方程，为什么不能直接去掉 $a^{[1]}=g^{[1]}(z^{[1]})$ 呢？去掉函数 $g(z)$ ，然后令 $a^{[1]}=z^{[1]}$ ，或者令 $g^{[1]}=z^{[1]}$ ，这有时候叫线性**函数，更学术一点的名字是，恒等**函数，因为它们就直接把输入值输出了。
吴恩达深度学习 —— 3.7 为什么需要非线性**函数
为了说明问题，我们看看 $a^{[2]}=z^{[2]}$ 会怎么样。事实证明，如果你这样做，这个模型的输出y或者 $\hat{y}$ 只不过是输入特征x的线性组合。

如果要用线性**函数或者叫恒等**函数，那么神经网络只是把输入线性组合再输出。在深层神经网络中，事实证明，如果你使用线性**函数，或者如果没有**函数，无论神经网络有多少层，一直在做的只是计算线性**函数，所以还不如直接去掉全部隐藏层。

事实证明，如果在图中的神经网络中，在隐藏层中使用线性**函数，在输出层中使用sigmoid函数，那这个模型的复杂度和没有任何隐藏层的标准逻辑回归是一样的。要点在于，线性隐藏层一点用都没有，因为两个线性函数的组合本身就是线性函数。所以除非引入非线性，否则无法计算更有趣的函数，网络层数再多也不行。只有一个地方可以使用线性**函数 $g(z)=z$ ，就是如果你要机器学习的是回归问题，回归问题中y是一个实数。比如说，想预测房地产价格，那么y不是0或者1，而是一个实数，那么在这里用线性**函数也许可行，所以你的输出y也是一个实数，从负无穷到正无穷。

但是神经网络中的隐藏单元不能用线性**函数，他们可以用Tanh或者ReLU或者其它的非线性**函数。所以唯一可以用线性**函数的地方通常就是输出层，除了这种情况，会在隐藏层用线性**函数的，可能除了与压缩有关的一些非常特殊的情况。

吴恩达深度学习 —— 3.7 为什么需要非线性**函数

相关推荐