MSR: Multi-Scale Shape Regression for Scene Text Detection

原文连接:MSR: Multi-Scale Shape Regression for Scene Text Detection

角度

针对现有的回归方形文本框的方式,作者提出了一种回归密集的边框点的形式,在可以生成匹配任意文本的同时,通过高级任务来增加网络提取特征的能力(个人认为)。考虑到多尺度的问题,作者提出了一种适合于多尺度的网络结构。

算法流程

MSR: Multi-Scale Shape Regression for Scene Text Detection

图片被处理为图片金字塔后一起输入网络,得到三个不同的输出,第一个输出是central text region, 为文本区域的中心区域,然后结合这个中心区域,从第二个输出中取出中心区域的点到最近的边缘的横向距离x,从第三个输出取出中心区域的点到最近的边缘的纵向距离,综合点和坐标这两个距离,就能得到一组密集的边框点,将它们连起来,就是目标的边框。其中,central text region是只取了整个文本区域的中心部分,不但有找到点来推测边框的作用,还有分割好容易混叠的文本的作用。

网络结构

MSR: Multi-Scale Shape Regression for Scene Text Detection

本文的亮点之一就是怎么处理好多尺度问题。输入的图片被下采样后得到一个图像金字塔。这个金字塔输入同样的前向网络后,会因为输入图片大小的差异,已经网络自身的设计,在不同的前向和不同的阶段,网络会提取到图片不同的特征。怎么将这些特征结合起来是个问题。作者在这里采用的是以特征图大小一致性为匹配原则,将同样大小的feature map concat起来,不同大小的feature map则是逐层上采样。后用卷积层进行特征融合。这里有个疑惑,虽然multi-stage解决了不同级别特征的融合问题,multi-scale解决了尺度变化范围大的问题,就是为什么不是采用上采样后同个语义级别的特征进行融合,而是将不同级别的特征进行融合,作者没有对网络的设计进行分析。只能认为这里觉得不同大小的特征图应该关注不同的特征,大图看中细节,小图看中整体,然后两者一结合,会有更好的表现。

网络的细节

MSR: Multi-Scale Shape Regression for Scene Text Detection

  1. 中心线的确定是先将上下毗邻点连接起来,后取线段的1/4和3/4处的点,如(b),最后将它们按顺序连接起来得到中心区域,如图©
  2. x和y距离的确定,将中心区域的点,分别找它们最近的边上的点的距离,如图(d),然后得到(e)和(f)

网络的loss

  1. 中心区域分类用Dice Coefficient loss
  2. x y的回归用Smooth L1 Loss

网络两个部分能力的验证

MSR: Multi-Scale Shape Regression for Scene Text Detection

其中,baseline是EAST