【text recognition算法】AON: Towards Arbitrarily-Oriented Text Recognition
CVPR 2018
- Introduction
这个模型是作者针对基于STN的不规则文本识别算法难以训练,需要人工标记的缺点,来提出的一种全新的对任意方向文本进行识别的算法。
- Model
整体架构
整个模型分为三个部分,BCNN基本CNN层用来对input image提取出feature map,AON+FG是本算法的核心,基本思路是将文本方向分为Left2Right,Right2Left,Bottom2Top,Top2Bottom,对这四个方向提取四个sequence vector和一个权重向量,在FG层将四个sequence和权重进行组合形成最终的sequence,然后输入带有Attention机制的Decoder从而输出最终文本。
2.1 BCNN
输入输出是square feature maps
2.2 AON+FG
AON分为三个子网络horizontal network(HN),vertical network(VN),character placement clue network(CN)分别输出水平的两个向量,垂直的两个向量,和权重向量
FG里根据公式9,10来计算最终的向量h
- Illustration
照片围绕四个权重向量,颜色越深表示该方向为文本排列的方向
经过AON+FG处理后对文本排列方向的表示。