人工智能学习笔记5
以下内容来自百度,他人博客等,用于学习,并记录笔记,若有侵犯到版权,联系博主,将立刻删除
分母 +1 是因为为了最大值趋于1而不是更大的值,分母以指数级变化,所以越区域1时,变化越不明显。这就导致梯度在前面几层就下降到非常非常小,之后基本起不到训练的作用。
神经网络的输出层一般还是sigmoid函数,因为他最接近概率输出分布
没有隐含层的神经网络是没办法把特征抽象的,仅仅是通过像素点来进行判定。而隐藏层最大的特点就是能够实现非线性化拟合,也就能够提取特征,而且能够不断的抽象特征,隐藏层层数越深,他的结点数也就越少(特征越接近原图了)。将高级特征进行组合,就能够实现匹配和分类了。
深度学习的局部响应归一化LRN(Local Response Normalization)理解
https://blog.csdn.net/yangdashi888/article/details/77918311
tensorflow下的局部响应归一化函数tf.nn.lrn
https://blog.csdn.net/sinat_21585785/article/details/75087768
正则化(用于惩罚特征权重的)的介绍 (包括L1和L2的区别,L1、L2正则化都很常用,简单来说L1是绝对值之和(让特征变得稀疏,适合用于特征选择),L2是平方和(让模型变得更简单,防止过拟合))
https://www.jianshu.com/p/569efedf6985
增大数据集是最好的正则化方法
Bagging这个算法效果非常好
注:在论文中,数据是不鼓励使用模型平均算法的,因为任何机器学习算法都可以从模型平均中大幅获益,这样就无法分辨论文中模型的效果是好是坏了。