CTPN知识点解析

CTPN知识点解析

1. CTPN(基于连接预选框网络的文本检测)

基本思路:既然宽度是可变、不确定的,那么就按照固定的高度进行检测,看看图像中有哪些区域是连续出现了一片同样高度特征的区域,并且其边缘符合文字的特点,就将其圈出来。

该模型主要是对图片中的文本行进行准确定位,其基本做法是直接在卷积获得的 feature map(特征图)上生成的一系列适当尺寸的文本 proposals(预选框)进行文本行的检测。

2. 原理介绍

CTPN模型利用了 RNNCNN 的无缝结合来提高检测精度。其中,CNN用来提取深度特征,RNN用于序列的特征识别;

2.1 CNN(采用VGG16)

CTPN模型通过利用VGG16卷积输出的feature map(特征图)生成一系列 proposals(预选框)进行检测

2.2 RNN

由于文字信息是由“字符、字符的一部分、多字符”组成的一个序列,所以文字这个检测目标并不是独立、封闭的,而是有前后关联的,因此在CTPN中采用了RNN(Recurrent Neural Networks,循环神经网络)来利用前后文的信息进行文本位置的预测。

2.3 网络结构

第一步: 输入3×600(h)×900(w)的图像,使用VGG16进行特征的提取,得到 conv5_3(VGG第5个block的第三个卷积层)的特征作为feature map,大小为512×38×57;

第二步: 在这个feature map上做滑窗,窗口大小是3×3,即512×38×57变为4608×38×57(512按3×3卷积展开);

第三步: 将每一行的所有窗口对应的特征输入到RNN(BLSTM,双向LSTM)中,每个LSTM层是128个隐层,即57×38×4608变为57×38×128,Reverse-LSTM同样得到的是57×38×128,合并后最终得到结果为 256×38×57;

第四步: 将RNN的结果输入到FC层(全连接层),FC层是一个256×512的矩阵参数,得到512×38×57的结果;

第五步: FC层特征输入到三个分类或者回归层中。第一个2k vertical coordinate和第三个k side-refinement是用来回归k个anchor的位置信息(可以简单理解为是要确定字符位置的小的矩形框,上面示意图中的红色小长框,宽度固定,默认为16),第二个2k scores 表示的是k个anchor的类别信息(是字符或不是字符);

第六步: 使用文本构造的算法,将得到的细长的矩形框,将其合并成文本的序列框。其中文本构造算法的主要的思路为:每两个相近的候选区组成一个pair,合并不同的pair直到无法再合并为止。

3. 小结

CTPN模型最大的亮点是引入RNN来进行检测。先用CNN得到深度特征,然后用固定宽度的anchor(固定宽度的,细长的矩形框)来检测文本区域,将同一行anchor对应的特征串成序列,然后输入到RNN当中,再用全连接层来做分类或回归,最后将小的候选框进行合并,从而得到了文本所在的完整区域。这种把RNN和CNN无缝结合的方法有效地提高了检测精度。

(未完,待更新。。。)