吴恩达极神经网络与深度学习第四周——深层神经网络——白话理解

一、深层神经网络

吴恩达极神经网络与深度学习第四周——深层神经网络——白话理解
这个理解很简单了,这里所讲的深层神经网络先比与之前的但隐层神经网络其实就是多了几个隐藏层。

二、深层神经网络的前向传播

吴恩达极神经网络与深度学习第四周——深层神经网络——白话理解
吴恩达极神经网络与深度学习第四周——深层神经网络——白话理解
其实深层网络的前向传播还是挺更好理解的,可以看到每两层之间只有两步的计算,每一层都有一个Z和a,a作为下一层的输入。

三、核对矩阵维数

该小节文章具体想表达内容如下:
吴恩达极神经网络与深度学习第四周——深层神经网络——白话理解
下面是吴恩达课程中的截图:
吴恩达极神经网络与深度学习第四周——深层神经网络——白话理解
当我们在初始W和b时,我们需严格按照以上的公式进行初始化,否则在我们进行矩阵相乘时即(np.dot())会导致bug发生。其实不难理解和记忆为什么W和b要这样初始化,W的行数代表该层神经元的数量,前一层到该层的每一个神经元都有对应的Wi,有n个神经元即有W有n行。W的列数代表了上一层的神经元神经数,该层每一个神经元对应Wi都有都会给予前一层的每一个神经元的一个权重,所以列数对应的是前一层的神经元数。至于b的行数,是因为该层每一个神经元都只对应着一个b,所有b的行数对应着该层的神经元数,因为每行只有一个,所以b的列数固定为1。
可以看出dW和db对应着与W和b的行列数是相同的,这是因为对于W的每一行每一列的权重值,在每一轮的反向传播都需要进行梯度下降,所以dW就要有与W相同的相同的行列数,否则会运算错误,db与b上述理解相同。

四、为什么使用深层表示

他这里举了两个例子来说明:
第一个是搜索人脸的神经网络:
吴恩达极神经网络与深度学习第四周——深层神经网络——白话理解
首先我们暂时不探讨输入层是什么,只是作简单介绍,后面会介绍与其相关的卷积神经网络,这里我们将输入层看作一张照片,第一个隐藏层看作经过计算后形成的一些边缘,第二个隐藏层可以看出来对应的是一些器官如眼,鼻子,嘴等等,第三个隐藏层对应的就是相对完整的人脸(课程只介绍了三个隐藏层里的东西)。可已看出该神经网络是形状类似金字塔,而该神经网络的功能有点像是在重构一张人脸,最后输出的是去除了大部分细节,一张保留脸部轮廓和特征的一张图片(个人猜想)。

第二个例子就是异或运算:
吴恩达极神经网络与深度学习第四周——深层神经网络——白话理解
这个例子主要是介绍深层神经网络与浅层神经网络之间的部分区别。左图为采用深层神经网络来运算,形状为一颗二叉树,对应该隐层数量为log (n)。而浅层神经网络的隐藏层的神经元数,会随着输入层的个数成指数型增长,因为我们要考虑输入层中所有的组合。

五、搭建神经网络块

对于前向传播来说,深层传播与浅层传播非常相似,在表面看,只不过在输出层之前多计算了几次Z和A,但是,对反向传播来说对Z、W和b的求导都一样,唯一多了对A的求导,在这先不讨论两者区别,后面会讨论。

下面这是吴恩达课程中搭建神经网路块的图。吴恩达极神经网络与深度学习第四周——深层神经网络——白话理解
这是我结合神经网络图搭建的神经网络块。
有些地方可能看的不太清楚,可以结合后面的公式观看。
吴恩达极神经网络与深度学习第四周——深层神经网络——白话理解
这样我们的多层神经网络就搭建起来了。

六、前向和反向传播

这里主要是介绍以下前向和反向传播的主要公式,结合上面神经网络搭建块看会理解更好。

前向传播:
A[0] = X(输入层参数)
吴恩达极神经网络与深度学习第四周——深层神经网络——白话理解
**函数:到目前为止,对于二分类情况,一般隐藏层的**函数g(Z) =tanh(Z),输出层的**函数一般为g(Z) = sigmoid(Z)
吴恩达极神经网络与深度学习第四周——深层神经网络——白话理解
反向传播:
吴恩达极神经网络与深度学习第四周——深层神经网络——白话理解
吴恩达极神经网络与深度学习第四周——深层神经网络——白话理解

七、参数与超参数

这里的参数与超参数吴恩达只给出了非常简单的概念。
我参考了其他博客比较总结了一下两者之间的区别。

1、参数

模型参数是模型内部的配置变量,其值可以根据数据进行估计。

1、它们的值定义了可使用的模型
2、模型在进行预测时需要它们。
3、他们是从数据估计或获悉的。
4、它们通常不由编程者手动设置。
5、他们通常被保存为学习模型的一部分。

参数一般由数据集中得出,比如权重矩阵W和b等

2、超参数

模型超参数是模型外部的配置,其值无法从数据中估计。

1、它们通常用于帮助估计模型参数。
2、它们通常由人工指定。
3、他们通常可以使用启发式设置。
4、他们经常被调整为给定的预测建模问题。

超参数一般是由人手设置的,比如学习率α等

参数与超参数部分有参考其他博客,侵删。