EML-NET: An Expandable Multi-Layer NETwork for Saliency Prediction【论文笔记】

很久没看论文了,炼丹炼的我走火入魔,只能打出一波GG。

先看这篇论文网络结构:

EML-NET: An Expandable Multi-Layer NETwork for Saliency Prediction【论文笔记】

 思路很清晰,横线上半部分,称为编码阶段,单独训练已经预训练的DenseNet 和NasNet两个深度网络网络,输出为最后一层的输出,经过1x1卷积之后得到。横线下半部分,成为解码阶段,用之前训练的几个网络,利用多级特征,DenseNet有四层,NasNet有三层,总共七层,然后分别1x1得到七个feature map,上采样到最大的feature map相同大小,最后再1x1卷积得到最终的结果。

网络思路很简单,有点类似于机器学习里面的集成学习,多个网络输出,再融合。以前是融合多级特征,现在再融合多个网络,不过参数量上升非常多,而且网络的性能确实有提升= =不过感觉性价比不高,更多的是为了刷榜。

Tip

作者也用了KL散度,CC以及NSS,借鉴的SAM一样的思路,不过作者也强调了NSS的作用= =我很伤心,得多一种输入才行= =还不知道怎么实现。

网络的深度,确实对于这个有影响吧,如果输入时480*640的话,网络的接受域相对来说比较小,可能会学不到东西,那么就要加深网络了。