【text recognition算法】Scene Text Recognition from Two-Dimensional Perspective

 

AAAI 2019

 

  • Introduction

作者列举了之前对于irregular text识别算法的缺点,认为sequence recognition的算法是一维的,存在label和sequence无法对齐的问题。于是作者提出了一种全新的基于FCN的对字符检测分类的二维文本识别算法。

【text recognition算法】Scene Text Recognition from Two-Dimensional Perspective

一维序列识别算法和二维基于字符坐标识别算法的对比

 

  • Model

作者从FCN网络获取灵感,思路是利用带有字符位置的样本对带有Character Attention 的FCN网络训练,使其能够对input image进行像素级的分割。然后将所有非背景的类型像素,根据空间位置排序形成text sequence。总体来说,是将irregular text recognition看作是图像分割问题,利用FCN+ Character Attention+ Deformable Convolution来解决。

【text recognition算法】Scene Text Recognition from Two-Dimensional Perspective

2.1 Character Attention FCN

整体网络架构是基于FCN加上Attention机制,形成0.5H×0.5W×C的输出。

2.2 Character Attention module

【text recognition算法】Scene Text Recognition from Two-Dimensional Perspective

 

加入Attention机制目的是高亮字符区域,让背景变暗,同事还可以分割字符。但是对于字符的Attention机制需要有精确到字符位置的训练样本。

2.3 Deformable Convolution

这个卷积是2017年提出的,可以为字符预测提供更加灵活多变的receptive field

【text recognition算法】Scene Text Recognition from Two-Dimensional Perspective