A Large-scale Database and a CNN Model for Attention-based Glaucoma Detection 论文解读
A Large-scale Database and a CNN Model for Attention-based Glaucoma Detection 论文解读
基本概述
这篇文章主要是将CNN中的注意力机制应用在大尺度模型中。
感觉这篇的重点就是,利用注意力机制去除冗余,提高准确率。所以最终目的还是提高准确率。
本博客主要介绍了网络结构,三个子网之间的联系。
Abstract
大数据量,同时也有医师标注的label,
于是就构建了这个网络,包括三个子网络:注意力预测子网,病理学定位子网,青光眼分类子网(注意子网之间的关系)
1 introduction
DNN中的注意力机制,目的是定位在最突出的区域。
DNN中的注意力机制是通过注意力图谱实现的。第一种,自学习模型,弱监督学习注意力图。第二种,利用人类的注意力信息来引导DNN关注ROI(这里感觉不太懂)
第二段讲述了,如果有过多的血管冗余的眼底成像会严重影响到CNN的分类定位。
2 medical background 和 3 Database 两个部分主要是介绍的医学上面的信息以及数据集医学上的背景知识。
4 method
4.1 framework框图
注意力预测子网是用来减少冗余的
青光眼分类子网就是根据大量的多尺度的数据学习到的东西进行分类的(多尺度指的是采集到的数据中的视杯大小不同)
4.1.1 基本结构
这里对应着网络结构详细介绍一下网络构造
输入是眼底的RGB图像,输出是(1)病理定位区(2)分类的二值标签
而病理定位区的输出是由两个步骤得到的(1)attention图,(2)将attention图嵌入病理定位子网中,将attention图可视化后将子网定位在病理区域。(3)定位区域用来作为输入的RGB的mask输入到分类子网中。
整体是基于残差网络实现的。所有卷积层后面都跟着一个BN层和ReLU**。
所以这个网络是一个端到端的网络,有三部分的loss
####### attention子网
对于attention prediction subnet来说
输入的是2242243的RGB图像,进入一个7*7的卷积层在加入一个max pooling。
之后进入8个模块来提取特征。(模块是残差模块)
每四个模块后加入一个feature normalization层(FN),将中四个FN层拼接起来,再加入一个反卷积,即可得到注意力图。
定位子网
定位子网主要是由卷积层和全连接层构成。预测的注意力图在原图上做mask,然后经过卷积层,全连接层和guided BP
分类子网
分类子网,是二值分类的网络。
使用了多个卷积层和一个max pooling
而卷积层是多尺度的卷积模块
最后使用两个全连接层
与传统的残差网络不同的是,这个病理区域可视化的地方,在输入图像和每一个输出的地方都加入了权重。
5 实验部分
在RIM-ONE公开数据集上进行检验
5.1 setting
这一小节设置了所有的实验参数:数据集大小,图像尺寸,梯度下降的方法和Adam优化器,学习率是10的-5次方,loss的系数。
同时本文需要和其他两种方法进行比较,比较设置了参数,首先灵敏度如公式(5),特异性如公式(6),Fβ参数,ROC,AUC