【论文阅读】Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation

思想

本论文与Unet方法不同,用Mask R-CNN类的方法来实现任意形状文本的检测,其中,它借用FPN网络的对矩形框的优异的检测性能,很好的找出文本的区域的矩形框,而后,通过一个基于LSTM的refine proposal模块来细致的描绘文本区,这巧妙的通过roi-pooling layer得到的特征进行任意形状框的回归(将feature作为LSTM每个step的输入,然后回归出任意长度点的序列)。这相对于Unet等的方法,有效解决了混淆文本的问题,且可能对小文本较友好。但是,对于长宽比极端的文本不太好。同时,LSTM的使用,使得它变成了一种自适应的形式,可以不拘泥与固定的输出长度,对实际检测中因有不同长度的文本的情况更友好

具体实现

1.网络结构

【论文阅读】Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation

2.流程

FPN的RPN部分检测出文本框,roi-pooling的输出分为两个branch,第一个branch经过全连接卷层得到更精准的是否文本的分类和边界框回归,第二个branch则将通过LSTM得到任意长度的点序列,构成任意形状的文本框

3.具体实现

3.1 RPN部分

【论文阅读】Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation

主体网络为SE-VGG16,在VGG16的基础上,在每个level的feature map的尾端加上SE block,这个block是channel attention的思想,计算出每个channel的重要程度,进行调整

3.2 Proposal refinement

这里只说关于refine的这一个branch,先补充一个先验,就是作者发现大部分的文本为长条状的,上下的边界点是具有一种近似的对称性的,所以对于文本边界点的预测可以采用上下点同时预测的形式,而不是采用顺顺时针预测的形式,这种预测的方法更贴近文本的几何特征和对LSTM的理解

【论文阅读】Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation

【论文阅读】Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation

roi pooling提取到的特征会被全部输入到每个step中,而得到两种参数,第一种是对当前step的上下点的预测,第二种是对是否停止预测点的预测。分为两种类型的输出是因为这两种类型的数据形式差异比较大,所以分成两路输出。

其中(x1x_{1}y1y_{1}x2x_{2}y2y_{2})分别表示上下两个点的坐标。

同时,为了更好的回归,这个参数是归一化之后的参数即ground truth为

【论文阅读】Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation

其中,xax_{a} ,yay_{a}为proposal的中心点,waw_{a}hah_{a}为proposal的宽和高

3.3 loss的设计

【论文阅读】Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation

上面是(x1x_{1}y1y_{1}x2x_{2}y2y_{2})的loss,而stop和continue的loss为只对continue的概率做log

思考

虽然说加入了LSTM能够解决不定长文本需要不定长的点序列来表示外观,但是这种思想在训练的时候并没有很好的体现。这里应该有个对齐的机制点的数量会与某种内在联系,比如字母的数量等对齐,会让LSTM的加入更有针对性。这里我觉得可以用识别的label来确定有多少个点。