Text recognition文本识别算法MORAN: A Multi-Object Rectified Attention Network for scence text recognition

MORAN: A Multi-Object Rectified Attention Network for scence text recognition

Pattern Recognition 2019

一、Introduction

MORAN分为两部分一个是对形变input image的校正网络MORN(multi-object rectification network)和对矫正后照片的识别网络ASRN(attention-based sequence network)。除了整体架构,作者还强调了两种提升训练效果的方法,因为这个端到端的网络比较难训练。一个是fractional pickup method用于提升ASRN的训练效果,一个是curriculum learning用于训练MORAN这个端到端的网络。

Text recognition文本识别算法MORAN: A Multi-Object Rectified Attention Network for scence text recognition

整体网络架构

 

二、具体实现

2.1 MORN 校正网络

Text recognition文本识别算法MORAN: A Multi-Object Rectified Attention Network for scence text recognition

这个网络是整个算法的精髓,因为对畸变文字识别已经有一些基于仿射变换(affine transformation)的算法,例如STAR-Net利用affine transformation network。作者是对input image的每个像素经过MORN生成一个同尺寸的offset maps,对应位置的value是input image相同位置像素需要位移的大小。这样的变换摆脱了几何变换的限值。然而,该方法仅仅能够改变垂直方向的畸变,对于水平方向的无能为力。

2.2 ASRN 注意力识别网络

Text recognition文本识别算法MORAN: A Multi-Object Rectified Attention Network for scence text recognition

  这个就是正常的CRNN加上注意力机制。

 

2.3 Fractional Pickup 渐进式训练方法

  在实际训练中由于ASRN识别网络在面对一些噪音干扰时,其注意力会受影响而无法集中在模糊歧义的区域,于是提出一种渐进式随机选取注意力参数at的方法。

Text recognition文本识别算法MORAN: A Multi-Object Rectified Attention Network for scence text recognition

Text recognition文本识别算法MORAN: A Multi-Object Rectified Attention Network for scence text recognition

FP有以下几个好处:1、抑制过拟合2、增大了视觉范围3、提供了previous information,增大了鲁棒性。

 

2.4 Curriculum learning

  MORAN网络由两部分组成是一个可训练的端到端模型,但是在训练中MORN和ASRN两部分是相互阻碍的。因为当ASRN识别效果很好时,MORN不会去变换input image,同理,MORN把畸变照片变换的很规整时,ASRN不会有很好的鲁棒性。因此,提出three-step的方法。

 

Text recognition文本识别算法MORAN: A Multi-Object Rectified Attention Network for scence text recognition

 

First stage for ASRN:先用常规数据集训练ASRN,然后用不规则数据集训练。

Second stage for MORN:ASRN还不足以直接识别不规则照片,所以它可以提供informative gradients给MORN。作者修改了ASRN的参数,集合后放在MORN后。如果经过MORN变换没有降低识别难度,ASRN就会提供很少的meaningful gradients,整个优化没有进步。MORN只有经过正确的矫正变换,它才能获得positive feedback。

Third stage for end-to-end optimization

当前两部分训练的差不多了,在把两部分合起来,整体训练。

 

三、MORAN的limitation

1、虽然可以处理一些畸形照片,但是对于curve angle过大的,识别效果不好

2、仅能变换垂直方向的,水平方向的没有用

3、训练难度大