【text recognition算法】AON: Towards Arbitrarily-Oriented Text Recognition

 

CVPR 2018

  • Introduction

  这个模型是作者针对基于STN的不规则文本识别算法难以训练,需要人工标记的缺点,来提出的一种全新的对任意方向文本进行识别的算法。

 

  • Model

【text recognition算法】AON: Towards Arbitrarily-Oriented Text Recognition

整体架构

整个模型分为三个部分,BCNN基本CNN层用来对input image提取出feature map,AON+FG是本算法的核心,基本思路是将文本方向分为Left2Right,Right2Left,Bottom2Top,Top2Bottom,对这四个方向提取四个sequence vector和一个权重向量,在FG层将四个sequence和权重进行组合形成最终的sequence,然后输入带有Attention机制的Decoder从而输出最终文本。

 

 

2.1 BCNN

输入输出是square feature maps

 

2.2 AON+FG

【text recognition算法】AON: Towards Arbitrarily-Oriented Text Recognition

【text recognition算法】AON: Towards Arbitrarily-Oriented Text Recognition

AON分为三个子网络horizontal network(HN),vertical network(VN),character placement clue network(CN)分别输出水平的两个向量,垂直的两个向量,和权重向量

【text recognition算法】AON: Towards Arbitrarily-Oriented Text Recognition

FG里根据公式9,10来计算最终的向量h

 

  • Illustration

【text recognition算法】AON: Towards Arbitrarily-Oriented Text Recognition

照片围绕四个权重向量,颜色越深表示该方向为文本排列的方向

【text recognition算法】AON: Towards Arbitrarily-Oriented Text Recognition

经过AON+FG处理后对文本排列方向的表示。