[深度学习从入门到女装]YOLACT Real-time Instance Segmentation

论文地址:YOLACT Real-time Instance Segmentation

 

这是一片实例分割的论文,该论文的目的是对原始的one-stage目标检测的框架加上mask的branch实现实例分割,就像Mask R-CNN对Faster R-CNN一样,只不过maskRCNN是two-stage的

 

[深度学习从入门到女装]YOLACT Real-time Instance Segmentation

整体网络框架如上图所示:

文章中也提到说

one-stage的方法使用fc进行bounding box和class 的回归,无法保持spatial coherent(相邻像素可能输入同一个instance)

而two-stage的方法使用了localization step(RoI Align)可以解决输入尺寸不一致的问题,能得到统一尺寸的feature map,就可以使用conv进行bounding box和class的回归,能够保持spatial coherent,但是呢,这种方法会造成冗余,对feature map进行重复计算,速度也比较慢

文章就想要融合以上两种,使用fc来预测mask coefficent,使用conv来预测prototype masks

因此整体框架分为两个branch

一个branch用于预测prototypes,也就相当于对原图进行语义分割,但是一个区别是对prototype不使用语义分割的loss

文中提到说,prototype的输出是unbounded是重要的,能够突出最大的**点和背景区别,因此他们使用了relu**函数或者不用**函数(这里我的理解是,对于语义分割,最后的输出都是用softmax归一化到0-1,但是这里不需要使用softmax,这点还有待查证,需要看源码)

另一个branch用于预测mask coefficient,也就是用于预测类别的置信度和bounding box的回归,与其他检测网络不同的地方在于,这个branch又加了用于预测mask cofficient的结构,用于和prototype一一对应,使用tanh**函数

 

mask assembly

[深度学习从入门到女装]YOLACT Real-time Instance Segmentation