1.神经网络和深度学习-第四周 深层神经网络

第四周 深层神经网络
Logistc回归是一个浅层模型,技术层面说logistic回归是单层神经网络。
符号:用a[l]表示L layer中的**函数。
1.神经网络和深度学习-第四周 深层神经网络
神经网络中的前向传播:
单个训练集:
1.神经网络和深度学习-第四周 深层神经网络
怎样用向量化的方法训练整个训练集:要做的只是把所有的za向量叠起来,换掉小写的za,就可以得到一个同时针对整个训练集的向量化的正向传播算法步骤。最后也把所有的训练样本的预测值水平的叠一起。
1.神经网络和深度学习-第四周 深层神经网络
核对矩阵的维数
当实现神经的时候,要注意查错,方法是过一遍算法中矩阵的维数。
1.神经网络和深度学习-第四周 深层神经网络
z是第一个隐层的**函数向量,这里z的维度是(3,1)。
1.神经网络和深度学习-第四周 深层神经网络
w的维度,
1.神经网络和深度学习-第四周 深层神经网络
接着,考虑向量b的维度时,考虑可以做向量加法的哦。
1.神经网络和深度学习-第四周 深层神经网络
1.神经网络和深度学习-第四周 深层神经网络
总之,参数wb的维度是
1.神经网络和深度学习-第四周 深层神经网络
在反向传播时,dw的维度和w相同,db和b的维度相同。
1.神经网络和深度学习-第四周 深层神经网络
向量化之后,w,b,dw,db的维度是一样的。但是对于x,z和a而言,向量化后会发生变化。m是训练集大小。
把所有训练样本水平堆叠,但是b的维度不变,所有会用到python的广播机制,然后逐元素相加。
1.神经网络和深度学习-第四周 深层神经网络
1.神经网络和深度学习-第四周 深层神经网络


为什么使用深层表示?
1.神经网络和深度学习-第四周 深层神经网络
边缘探测器(第一层)其实相对来说都是针对照片中非常小块的面积。面部探测器会针对的区域稍微大些(第二层)。主要的概念就是一般从较小的细节入手(边缘),然后再一步步到更大更复杂的区域(眼睛)。
深度神经网络的许多隐层中,较早的前几层能学习一些低层次的简单特征,等到后几层,就能把简单的特征结合起来,去探测更加复杂的东西。
有很多数学函数,用深度网络计算,比浅网络要容易的多。


搭建深层神经网络块
输入特征的导数并不重要,起码对于训练监督学习的权重不算重要,可以止步。反向传播步骤中也会输出dw[l]和$db^{[l]}。w也会在每一层被更新,b也一样。
缓存z的好处:此缓存有利于得到w和b的参数值,在反向传播时很有用。
forward and backward functions
1.神经网络和深度学习-第四周 深层神经网络
1.神经网络和深度学习-第四周 深层神经网络
每一层都有一个前向传播和一个相对的反向传播步骤。具体情况:
前向传播:
1.神经网络和深度学习-第四周 深层神经网络
反向传播:
1.神经网络和深度学习-第四周 深层神经网络
Summary
当用logistic回归做二分类时,下图还有实现向量化版本的方式(初始化一个向量化反向传播的方法)。
1.神经网络和深度学习-第四周 深层神经网络
参数和超参数
超参数最终会影响参数w和b。
1.神经网络和深度学习-第四周 深层神经网络
其他超参数:
1.神经网络和深度学习-第四周 深层神经网络
前向传播和反向传播:
1.神经网络和深度学习-第四周 深层神经网络
参考信息:https://zhuanlan.zhihu.com/p/31993011