EAST: An Efficient and Accurate Scene Text Detector 论文阅读

Reference

X. Zhou, C. Yao, H. Wen, Y. Wang, S. Zhou, W. He, and J. Liang, “East: an efficient and accurate scene text detector,” in Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, 2017, pp. 5551–5560.

正文

摘要

以往的文本识别方法在处理有挑战性的场景时不尽人意,因为整体效果由算法多个阶段和模块的共同作用决定。本文的算法通过单一神经网络直接预测整幅图像中任意方向的单词或文本行和四边形形状,消除了不必要的中间步骤(如候选聚合和词划分)。

引言

文本检测的核心是将文本从背景分离出来的特征的设计。传统的,特征被人工设计成捕获场景中文本的属性。在深度学习中,有效的特征直接从训练集中学习。

但是现存方法大多包括几个步骤和模块,这大概都不是最优的并且耗时长,所以准确度和效率都不令人满意。

本文的方法只有两步。利用全卷积网络模型(fully convolutional network, FCN)直接生成单词或文本行级别的预测,减少了冗余和缓慢的中间步骤。生成的文本预测,既可以是旋转的矩形也可以是四边形,被送到非极大抑制(Non-Maximum Suppression)来产生最终结果。和现存的方法比较,根据在标准数据集上的定性定量的实验,提出的算法获得显著增强的性能,运行更快。
贡献:
1)提出了一个两阶段的文本检测方法:一个FCN阶段(减少了冗余和缓慢的中间步骤)和一个NMS合并阶段。
2)算法可以灵活的生成单词级或文本行级的预测。
3)算法在准确率和速度上明显优于现在最好的方法。

相关工作

传统的方法依赖人工设计特征。基于Stroke Width Transform(SWT)和Maximally Stable Extremal Regions(MSER)的方法一般通过边缘检测或极值区域的提取来寻找字符候选。(Zhang利用文本局部对称性的性质,为文本检测设计了不同特征。FASText针对笔画提取适应和修改了FAST关键点检测器)。但传统方法都输给了深度神经网络,尤其在低分辨率和几何形变的情况下。

基于深度神经网络的算法逐渐成为主流。(Huang等人首先发现用MSER找到的候选区然后再用深度卷积网络作为一个强分类器可以减少“伪正例”。Jaderberg等人的方法在滑动窗口扫描图片,然后用卷积神经网络模型为每个尺度生成稠密热力图。后来,Jaderberg等人用一个CNN和一个ACF来捕获单词候选区域,然后用回来来修正它们。Tian等人发明了垂直anchors,构建了一个CNN-RNN结合的模型来检测水平方向的文本行。不同于这些方法,Zhang等人提出利用FCN来生成heatmap,用分量投影来估计方向)这些方法效果出色,但是大多包括很多步骤和模块,可能需要大量的调试,导致性能次优,并增加耗时。

在本文中,我们设计了一种基于深度FCN的算法,直接把文本检测的最终目标作为任务:单词或文本行级的检测。抛弃了不必要的中间组件和步骤,允许端对端的训练和优化。最终的系统,用一个简单的轻量级的神经网络组成。

方法

模型是一个适用于文本检测的全卷积神经网络,输出稠密的按照每个像素的单词或文本行预测。这消除了中间步骤,力图候选区域、文本区域合并和单词分割。后处理步骤仅包含在预测的几何形状上的阈值过滤和NMS操作。

算法

算法沿用了DenseBox的通用设计,一张图送到FCN中,得到像素级的分数map和几何形状的多通道。

预测通道中的一个时分数map,像素值时在[0,1]之间。剩下的通道代表几何形状,从每个像素级别将单词框出来。分数代表在同一位置预测的几何形状的置信度。

我们对于文本区域实验了两种几何形状,旋转矩形(RBOX)和四边形(QUAD),对每种几何形状设计了不同的loss函数。然后在每个预测的区域用阈值过滤,分数高于阈值的几何位置被认为时有效的,保留下来进行后边的NMS。NMS后的结果就认为是算法的最终输出。

网络设计

几个需要考虑的因素。文本区域的大小可能变化很大,决定了大的单词需要来自神经网络的后边阶段的特征,而预测准确的包围小的单词的区域需要在早一些的阶段的低级别信息。所以网络必须使用不同级别的特征来满足这些要求。HyperNet是一种合适的办法,但在大的特征图上合并通道会极大增加后面阶段的计算量。

为了解决这个问题,我们采用了U-shape来逐渐合并特征图,同时使得上采样的分支较小。我们最终的网络既利用了不同级别的特征图还保持了一个较小的计算量。

EAST: An Efficient and Accurate Scene Text Detector 论文阅读
模型可分为3部分:特征提取主干、特征合并分支和输出层
主干可以是在ImageNet数据集上预训练出的卷积神经网络,从主干提取的四级特征图的,表示为fi,大小分别是输入图像的1/32、1/16、1/8和1/4。
EAST: An Efficient and Accurate Scene Text Detector 论文阅读
gi是合并基础,hi是合并的特征图,[.;.]表示沿通道维度拼接。在每个合并阶段,来自上一阶段的特征map首先喂给unpooling层来扩大二倍它的大小,然后和现在的特征map拼接。接下来,1*1的卷积bottleneck将减少通道的数量和减少计算量,后边跟一个3*3的卷积来融合信息来产生这个合并阶段的最终输出。最后合并阶段后变,执行3*3的卷积产生合并分支的最终特征图,喂给输出层。

我们保持在分支中卷积的通道数较小,这只增加了主干计算量的一小部分,使得网络计算更有效。最后的输出层包括几个1*1卷积操作,将32通道的特征图映射到1个通道的分数map Fs和一个多通道的几何map Fg。

对于RBOX,几何形状用边界框的坐标对应的4个通道(AABB)R和旋转角度1个通道来表示。4个通道分别表示某一像素位置到矩形的上、右、下、左边界的距离。

对于QUAD Q,我们用8个数来表示四边形的4个角顶点到像素点位置的坐标偏移。对于QUAD Q,我们用8个数来表示四边形的4个角顶点 EAST: An Efficient and Accurate Scene Text Detector 论文阅读

到像素点位置的坐标偏移。由于每个距离偏移量包括两个数 EAST: An Efficient and Accurate Scene Text Detector 论文阅读

几何输出包含8个通道。

标签生成

我们只考虑区域形状是四边形的情况。score map上正区域是原来形状的略微收缩。对于四边形 EAST: An Efficient and Accurate Scene Text Detector 论文阅读
pi={xi,yi}, 是四边形顺时针方向的顶点。对于收缩Q,我们首先对每个顶点pi计算参考长度
EAST: An Efficient and Accurate Scene Text Detector 论文阅读

D是两点之间的L2距离。
我们首先压缩两个较长边,然后再压缩两个较短边。对每个 EAST: An Efficient and Accurate Scene Text Detector 论文阅读
,压缩是通过分别沿着边将两个端点向中间移动0.3ri和0.3r(i mod 4)+1。

压缩之后,将框内的标签赋值为1,表示ground truth,其余的赋值为0。这样完成了score map的标签。

之所以需要生成标签,论文中可以看到,给出的数据集是包含了文本区域的一个标志框。而框内往往除了文字之外,还有着其他的信息。进行缩进可以减少这些信息对最终目标的影响。至于0.3的缩进比可能是超参。

geometry标签的生成不再赘述。

损失函数

L = Ls + λgLg,Ls表示分数图的损失,Lg表示几何形状的损失。
EAST: An Efficient and Accurate Scene Text Detector 论文阅读
分数图的损失使用平衡交叉熵作为损失函数
EAST: An Efficient and Accurate Scene Text Detector 论文阅读
EAST: An Efficient and Accurate Scene Text Detector 论文阅读

EAST: An Efficient and Accurate Scene Text Detector 论文阅读
直接用L1或L2 loss来回归可能导致loss偏向于更大更长的文本区域。由于我们需要对大的和小的文本区域生成准确的文本几何形状预测,所以回归loss应该是具有尺度不变性。

RBOX 对于AABB部分,我们采用[46]中的IoU loss,因为它对于不同大小的目标具有不变性。
λ使用了10,可以更好的关注旋转角度。
QUAD不再赘述

训练

网络是用ADAN优化器端对端的训练的。为了加速学习,我们一律从图片中剪裁512*512大小的样本来形成24大小的minibatch。ADAM的学习率从0.001开始,每27300个minibatch下降1/10,在0.00001停止。网络训练直到性能停止提升。

位置感知的NMS

基于相近像素的几何图形趋于高度相关性的假设,我们提议一行一行的合并几何图形。当合并同一行的几何图形时,我们将迭代合并当前几何图形与最后一个合并的。最好的运行时间是O(n)。

值得一提的是,合并四边形的坐标是用给定的两个四边形的分数加权平均的。

个人总结

优点:识别准确率高;识别速度快;调试简单;可进一步集成文本检测器。

缺点:探测器可以探测的文本实例最大长度受到网络感知野的限制。这限制了网络预测更长的文本区域,如横跨图像的文本行。不能检测复杂形状的文本,如弯曲文本。