【图像分割论文阅读】LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation
文章由美国普渡大学Abhishek Chaurasia、Eugenio Culurciello
共同完成。发表于2017 IEEE Visual Communications and Image Processing (VCIP)
,相较之前论文出处,收录文章的会议声名不显。
论文地址:LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation
背景
作者开篇直言视觉场景理解中的像素级语义分割既需要准确率高更需要高效以应用于实时应用中。但是现存的算法尽管准确率高但是没有高效的利用模型参数。本通过利用Encoder
表征高效的进行语义分割并产生较高的精度。作者阐述在计算机视觉领域,图像分类任务发展迅速,但是大多数模型纵然取得非常好的结果,但是往往需要大量的处理时间。在目标检测领域尽管YOLO、Fast R-CNN、SSD
等模型是针对实时目标检测任务,但是在语义分割任务中,还没有人这样做。
作者认为,用于场景分析的神经网络结构可以细分为编解码器网络,两个网络分别是区分网络和生成网络。在区分网络中通常使用流行的分类模型,生成网络中使用池化过程的索引或反卷积进行上采样恢复图像分辨率。编解码器可以是对称的也可以是不对称的。
模型结构
采用的基础模型为ResNet18
.
文中模型结构近乎类似U-Net
,是一个典型的Encoder-Decoder
结构。左侧是Encoder
模块,右侧是Decoder
模块。
其中Encoder block
构造如下:
Decoder block
构造如下:
实验
实验所用数据集是Cityscapes
,在分析实验结果时,近乎是对标E-Net
,如下图分别对比了在NAVIDIA TX1和NAVIDIA Titian X
两种设备下处理不同三种输入像素大小所耗费时间,以及对应的FPS
值。
另外对比了与E-Net、SegNet
处理分辨率大小为640x360
的图像需要的浮点数运算次数、模型参数以及模型大小:
最后对比在Cityscapes
上的分割精度,采用的评判指标为Class IoU、Class iIoU
,如下图:
这里模型的Class IoU=76.4%,Class IioU=58.6%
,可以看到的是对比E-Net
尽管没有E-Net
快但是这精度也搞太多了吧!!!
同样是在Cityscapes
数据集上Class IoU提升将近20%,iIoU提升大约24%
,这是很恐怖的呀!提升的原因在哪???
最后LinkNet
在特定类别上取得的效果如下,但是这张图存在很大问题,结果不直观,并且文中没有对任何结果进行详细的描述,甚至没有描述。Table V
中本应对比五个模型结果,但是在表中却给读者造成极大的阅读障碍。很难受!!!
表五是在CamVid
上的测试结果。
思考
看到实验结果的时候在想,ICNet
中有一张神图对比分析了许多模型在Cityscapes
测试集上的性能。当时说的是其他模型FPS>10,mIoU=60%,而ICNet表现为fps=30,mIoU=70.6%
,虽然ICNet
是2018年的论文,但是那张图上没有LinkNet
.
精度提升的原因在哪?
文中没有很大的创新,但是巨大的性能提升是为什么?
解释为什么对比E-Net
t提升如此大呢?我认为某种原因是E-Net
中采用Skip connection
中并不是恒等映射,而是利用最大池化层进行下采样。快是快了,但是牺牲了比较多的精度。相较于其他模型精度如DIlation-8
提升相对不是那么大,原因要探求的话继续分析细节。至于为什么快,很大程度上是因为基础模型是ResNet18
,自然的参数就少。