LeNet-5 手写字体识别模型

手写字体识别模型LeNet5诞生于1994,是最早的神经网络之一。
现在常用的LeNet-5(卷积池化当作一层的话,共5层)结构和Yann LeCun教授在1988年提出的结构在某些地方有区别,比如**函数的使用,现在一般采用ReLU作为**函数,输出层一般选择softmax。(论文RBF)
LeNet-5 手写字体识别模型
LeNet-5 手写字体识别模型

性质:随着网络越来越深,图像的高度和宽度在缩小,但channel数量一直在增加。

局限性:CNN能够从原始像素中,经过极少的预处理,识别视觉上的规律,然而由于缺乏大规模的训练数据,计算机的计算能力也跟不上,LeNet对于复杂问题的处理结果并不理想。

LeNet-5由7层CNN(不包括输入层)组成,输入的原始图像大小为32*32*1像素。

C1卷积层处理后的特征图28*28*6

每个特征图中任意一个元素和该层输入中的一个5*5区域相连,共(5*5+1)*6=156个可训练参数,产生(32-5+1)*(32-5+1)=28*28个神经元
LeNet-5 手写字体识别模型

s2 pooling池化层处理后14*14*6

每一个特征图中的元素与前一个特征图中一个2*2的相邻区域相连。
池化单元之间没有重叠,在池化区域内进行聚合统计(weight,bias,sigmoid)后得到新的特征值,相当于图像大小减半
LeNet-5 手写字体识别模型

C3卷积层处理后 10*10*16

这里每个特征图中的元素会与前一个特征图中的若干个特征图中处于相同位置的5*5区域相连(并不是全连接而是部分连接)
LeNet-5 手写字体识别模型
例如第一列表示第0个特征图只使用三个卷积模版与前一个特征图的0,1,2层相连接,将卷积结果相加求和,加上偏置,再取sigmoid
参数数目:(5*5*3 + 1)*6 +(5*5*4 + 1)*9 + 5*5*6 + 1 = 1516
为什么要这样做:
1:有效减少参数和连接数。
2:不对称的连接,可以使本层的特征图对应不同的高级特征。

s4 polling 5*5*16
c5 1*1*120
fc 84
softmax 10

写的很好
DeepLearning LeNet-5
经典卷积神经网络结构——LeNet-5、AlexNet、VGG-16