ICNet for Real-Time Semantic Segmentation on High-Resolution Image
ICNet for Real-Time Semantic Segmentation on High-Resolution Image
Abstract: cascade feature fusion
Reducing a large portion of computation
1. Introdiction
Status of fast segmentic segmentation
Our Focus and contributions
Practically fast semantic segmentation system
Efficiency and accuracy
The idea is to let low-resolution images go through the full semantic perception network first for a corse prediction map.Then cascade feature fusion unit and cascade label guidance strategy are proposed to intergrate medium and high resolution features,which refine the coarse semantic map gradually.
2. Related work
High Quality semantic segmentation
High efficiency semantic segmenation
Video semantic segmentation
3 Image Cascade network
3.1 Speed analysis
3.2 Network architecture
3.1 Speed Analysis
3.2 Network architecture
3.3 Cascade feature fusion
3.4 Cascade Label Guidance
4 Structure Coparsion and Analysis
5 Experimental evaluation
影像速度最重要的因素是图像分辨率,进而总结了提高速度的方法,分别是:
对输入降采样:效果不好,丢失很多小物体,导致精度下降。
对特征降采样:分别测试了x8,x16,x32,时间下降一定程度,精度下降不多,但达不到实时性。
模型压缩:达不到实时性。
提出的模型:
输入为一张输入的三种分辨率x1, x2, x4下采样, 分别输入三个卷积特征提取分支。
CFF,cascade feature fusion,就是特征融合。
低分辨率:x4, 输入一个基于FCN的PSPNet结构,得到x8特征, 那么相对于原图就是x32的分辨率,加入空洞卷积层。最多层,超过20层 。
中分辨率:x2, 输入卷积层,下采样x8,那么输出特征图就是下降了x16原图像。使用CFF来融合x16和x32的特征图。输出为x16。这两个分支的参数共享。层数少,17层。
高分辨率:x1, 类似中分辨率处理,得到下降了x8原图的分辨率,因为中分辨率已经提取了大多我们需要的特征,所以这一分支可以安心控制卷积层数量。最少层,只有3个卷积层。
级联标签指导:首先x2上采样输出特征图,用1/16,1/8,1/4的ground-truth图来指导三个阶段。在测试阶段,直接忽略低,中两个分支。
所以,在这基础上,本文提出的模型利用了低分辨率图片的高效处理和高分辨率图片的高推断质量两种优点。主要思想是:让低分辨率图像经过整个语义网络输出一个粗糙的预测,然后利用文中提出的cascade fusion unit来引入中分辨率和高分辨率图像的特征,从而逐渐提高精度。