Neural Networks and Deep Learning -- Class 4: Deep Neural Networks

4.1 深层神经网络
浅层网络 -> 深层网络
有些函数只有深度模型才可以学习,浅层模型学习不了
4.2 深层网络中的前向传播
z[l]=w[l]a[l-1]+b[l]
a[l]=g[l](z[l])
对每一层的前向传播,需要用for循环 1-> L
4.3 核对矩阵的维数
由网络结构推导出 每一层的输入与输出矩阵的维度
=> W维度: W[L]=(n(l),n(l-1)) dW相同
b维度:b[L]=(n[l],1) db相同
Z,A 维度相同
Z[L]=(n(L),m) A[L]=(n(L),m) dZ(L),dA(L)与之相同
4.4 为什么使用深层表示
不一定要大,但是要深,有比较多的隐藏层
神经网络在表示什么? => 探测简单的边缘 -> 组合表示复杂的函数
只用比较少的层数,会导致横向规模指数增长
4.5 搭建深层神经网络块
正向+反向
Neural Networks and Deep Learning -- Class 4: Deep Neural NetworksNeural Networks and Deep Learning -- Class 4: Deep Neural Networks
缓存Z的值
4.6 前向和反向传播
算法的复杂性/有效性,来源于数据,而不是代码
Neural Networks and Deep Learning -- Class 4: Deep Neural NetworksNeural Networks and Deep Learning -- Class 4: Deep Neural Networks
4.7 参数&超参数
参数:W,b
超参数:学习率,循环次数,隐层数量,隐层单元数,**函数 【控制实际参数的参数】
应用深度学习,很多时候依赖于经验:尝试,有效就用。。
最优参数可能会随时间变化 【CPU,GPU等可能会有较大变化】,经验规律每过几个月就会变。。
4.8 这和大脑有什么关系?
没啥关系,人类大脑的很多奥秘并未被人们所知

【习题】
【错题】
2. Among the following, which ones are "hyperparameters"? 
activation values. 注意是**函数的值,而不是**函数的选择,当然不是超参数啦
6. 没找到图。。
9. 没找到图。。
【重点】
1. The "cache" records values from the forward propagation units and sends it to the backward propagation units because it is needed to compute the chain rule derivatives.
7. During backpropagation you need to know which activation was used in the forward propagation to be able to compute the correct derivative.
不同**函数在反向传播进行求导时的公式不同