浅层网络

吴恩达深度学习

表示输入特征，表示每个神经元的输出，表示特征的权重，上标表示神经网络的层数（隐藏层为1），下标表示该层的第几个神经元。

一个神经元相当于进行一次逻辑回归含有w 转置后1*n n为前面的特征数或者说神经元数向量

x(n*1)样本 b(1*1)偏置

上面是针对一个样本的

吴恩达深度学习

多样本W b X Z A矩阵向量解析

Z[1][2]:第一层神经元第二个样本的结果 Z[1][m]:第一层神经元第m个样本的结果

每一列对应其中一个样本的第一层的结果 (一个样本在经历一层后映射结果不止一个)

W[n] 为矩阵行为神经元个数列为样本特征数或者前一个神经层神经元个数

b:为向量一列行为神经元数

X[n_x][m]: 为矩阵行为神经元数(特征数) 一列代表一个样本总列数为样本总数

Z:为矩阵行位神经元数(每个神经元输出的结果) 一列代表一个样本的结果

A：加**函数的Z

对于Z A X横向是样本数竖向是不同节点 W横向是样本特征数纵向是节点数

吴恩达深度学习

**函数选择规则：如果输出值是0,1做二分类 sigmoid很适合做**函数

其他都用Relu max(0,n) >0导数为1 小于0导数为0 rectify linear unit 修正线性单元

**函数：

tanh函数效果总是优于sigmoid函数。因为函数值域在-1和+1的**函数，其均值是更接近零均值的。在训练一个算法模型时，如果使用tanh函数代替sigmoid函数中心化数据，使得数据的平均值更接近0而不是0.5.

在讨论优化算法时，有一点要说明：我基本已经不用sigmoid**函数了，tanh函数在所有场合都优于sigmoid函数。对隐藏层使用tanh**函数，输出层使用sigmoid函数。

但有一个例外：在二分类的问题中，对于输出层，因为的值是0或1，所以想让的数值介于0和1之间，而不是在-1和+1之间。所以需要使用sigmoid**函数

sigmoid函数和tanh函数两者共同的缺点是，在特别大或者特别小的情况下，导数的梯度或者函数的斜率会变得特别小，最后就会接近于0，导致降低梯度下降的速度。

在机器学习另一个很流行的函数是：修正线性单元的函数（ReLu）所以，只要是正值的情况下，导数恒等于1，当是负值的时候，导数恒等于0。从实际上来说，当使用的导数时，=0的导数是没有定义的。但是当编程实现的时候，的取值刚好等于0.00000001，这个值相当小，所以，在实践中，不需要担心这个值，是等于0的时候，假设一个导数是1或者0效果都可以

一些选择**函数的经验法则：

如果输出是0、1值（二分类问题），则输出层选择sigmoid函数，然后其它的所有单元都选择Relu函数。

这是很多**函数的默认选择，如果在隐藏层上不确定使用哪个**函数，那么通常会使用Relu**函数。有时，也会使用tanh**函数，但Relu的一个优点是：当是负值的时候，导数等于0。

这里也有另一个版本的Relu被称为Leaky Relu。当是负值时，这个函数的值不是等于0，而是轻微的倾斜这个函数通常比Relu**函数效果要好，尽管在实际中Leaky ReLu使用的并不多。Leaky Relu=max（0.001Z,Z）

吴恩达深度学习

两者的优点是：

第一，在的区间变动很大的情况下，**函数的导数或者**函数的斜率都会远大于0，在程序实现就是一个if-else语句，而sigmoid函数需要进行浮点四则运算，在实践中，使用ReLu**函数神经网络通常会比使用sigmoid或者tanh**函数学习的更快。

第二，sigmoid和tanh函数的导数在正负饱和区的梯度都会接近于0，这会造成梯度弥散，而Relu和Leaky ReLu函数大于0部分都为常数，不会产生梯度弥散现象。(同时应该注意到的是，Relu进入负半区的时候，梯度为0，神经元此时不会训练，产生所谓的稀疏性，而Leaky ReLu不会有这问题)

在ReLu的梯度一半都是0，但是，有足够的隐藏层使得z值大于0，所以对大多数的训练数据来说学习过程仍然可以很快。

在ReLu的梯度一半都是0，但是，有足够的隐藏层使得z值大于0，所以对大多数的训练数据来说学习过程仍然可以很快。

快速概括一下不同**函数的过程和结论。

sigmoid**函数：除了输出层是一个二分类问题基本不会用它。

tanh**函数：tanh是非常优秀的，几乎适合所有场合。

ReLu**函数：最常用的默认函数，，如果不确定用哪个**函数，就使用ReLu或者Leaky ReLu。

为什么常数是0.01？当然，可以为学习算法选择不同的参数。

在编写神经网络的时候，会有很多选择：隐藏层单元的个数、**函数的选择、初始化权值……这些选择想得到一个对比较好的指导原则是挺困难的

自己的神经网络的应用，以及其特殊性，是很难提前知道选择哪些效果更好。

所以通常的建议是：如果不确定哪一个**函数效果更好，可以把它们都试试，然后在验证集或者发展集上进行评价。然后看哪一种表现的更好，就去使用它

为什么要用非线性函数

事实证明如果你在隐藏层用线性**函数，在输出层用sigmoid函数，那么这个模型的复杂度和没有任何隐藏层的标准Logistic回归是一样的

在这里线性隐层一点用也没有，因为这两个线性函数的组合本身就是线性函数，所以除非你引入非线性，否则你无法计算更有趣的函数，即使你的网络层数再多也不行；只有一个地方可以使用线性**函数------，就是你在做机器学习中的回归问题

总而言之，不能在隐藏层用线性**函数，可以用ReLU或者tanh或者leaky ReLU或者其他的非线性**函数，

唯一可以用线性**函数的通常就是输出层；除了这种情况，会在隐层用线性函数的，除了一些特殊情况，比如与压缩有关的

因为房价都是非负数，所以我们也可以在输出层使用ReLU函数这样你的都大于等于0

四种**函数求导如下：

两层神经网络反向推导：

构建神经网络：

吴恩达深度学习

提醒：构建神经网络的一般方法是：

Ps：对于建立一个神经网络的通用过程如下：

Step1：设计网络结构，例如多少层，每层有多少神经元等。

Step2：初始化模型的参数

Step3：循环

Step3.1：前向传播计算

Step3.2：计算代价函数

Step3.3：反向传播计算

Step3.4：更新参数

接下来，我们就逐个实现这个过程中需要用到的相关函数，并整合至nn_model()中。

当nn_model()模型建立好后，我们就可以用于预测或新数据集的训练与使用。

提示：使用X和Y的形状来查找n_x和n_y。此外，硬编码隐藏的图层大小为4。

代码：https://www.missshi.cn/api/view/blog/59abda2fe519f50d0400018f

深度神经网络：

吴恩达深度学习

吴恩达 深度学习

浅层网络

多样本W b X Z A矩阵向量解析

一些选择**函数的经验法则：

为什么要用非线性函数

四种**函数求导如下：

两层神经网络反向推导：

深度神经网络：

相关推荐

吴恩达深度学习