MSR: Multi-Scale Shape Regression for Scene Text Detection

原文连接：MSR: Multi-Scale Shape Regression for Scene Text Detection

角度

针对现有的回归方形文本框的方式，作者提出了一种回归密集的边框点的形式，在可以生成匹配任意文本的同时，通过高级任务来增加网络提取特征的能力（个人认为）。考虑到多尺度的问题，作者提出了一种适合于多尺度的网络结构。

算法流程

图片被处理为图片金字塔后一起输入网络，得到三个不同的输出，第一个输出是central text region，为文本区域的中心区域，然后结合这个中心区域，从第二个输出中取出中心区域的点到最近的边缘的横向距离x，从第三个输出取出中心区域的点到最近的边缘的纵向距离，综合点和坐标这两个距离，就能得到一组密集的边框点，将它们连起来，就是目标的边框。其中，central text region是只取了整个文本区域的中心部分，不但有找到点来推测边框的作用，还有分割好容易混叠的文本的作用。

网络结构

MSR: Multi-Scale Shape Regression for Scene Text Detection

本文的亮点之一就是怎么处理好多尺度问题。输入的图片被下采样后得到一个图像金字塔。这个金字塔输入同样的前向网络后，会因为输入图片大小的差异，已经网络自身的设计，在不同的前向和不同的阶段，网络会提取到图片不同的特征。怎么将这些特征结合起来是个问题。作者在这里采用的是以特征图大小一致性为匹配原则，将同样大小的feature map concat起来，不同大小的feature map则是逐层上采样。后用卷积层进行特征融合。这里有个疑惑，虽然multi-stage解决了不同级别特征的融合问题，multi-scale解决了尺度变化范围大的问题，就是为什么不是采用上采样后同个语义级别的特征进行融合，而是将不同级别的特征进行融合，作者没有对网络的设计进行分析。只能认为这里觉得不同大小的特征图应该关注不同的特征，大图看中细节，小图看中整体，然后两者一结合，会有更好的表现。

网络的细节

MSR: Multi-Scale Shape Regression for Scene Text Detection

x和y距离的确定，将中心区域的点，分别找它们最近的边上的点的距离，如图(d)，然后得到(e)和(f)

网络的loss

中心区域分类用Dice Coefficient loss
x y的回归用Smooth L1 Loss

网络两个部分能力的验证

MSR: Multi-Scale Shape Regression for Scene Text Detection

其中，baseline是EAST

MSR: Multi-Scale Shape Regression for Scene Text Detection

角度

算法流程

网络结构

网络的细节

网络的loss

网络两个部分能力的验证

相关推荐