您的位置: 首页 > 文章 > 【论文阅读】Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation

【论文阅读】Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation

分类: 文章 • 2024-01-02 13:35:16

思想

本论文与Unet方法不同，用Mask R-CNN类的方法来实现任意形状文本的检测，其中，它借用FPN网络的对矩形框的优异的检测性能，很好的找出文本的区域的矩形框，而后，通过一个基于LSTM的refine proposal模块来细致的描绘文本区，这巧妙的通过roi-pooling layer得到的特征进行任意形状框的回归（将feature作为LSTM每个step的输入，然后回归出任意长度点的序列）。这相对于Unet等的方法，有效解决了混淆文本的问题，且可能对小文本较友好。但是，对于长宽比极端的文本不太好。同时，LSTM的使用，使得它变成了一种自适应的形式，可以不拘泥与固定的输出长度，对实际检测中因有不同长度的文本的情况更友好

具体实现

1.网络结构

【论文阅读】Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation

2.流程

FPN的RPN部分检测出文本框，roi-pooling的输出分为两个branch，第一个branch经过全连接卷层得到更精准的是否文本的分类和边界框回归，第二个branch则将通过LSTM得到任意长度的点序列，构成任意形状的文本框

3.具体实现

3.1 RPN部分

【论文阅读】Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation

主体网络为SE-VGG16，在VGG16的基础上，在每个level的feature map的尾端加上SE block，这个block是channel attention的思想，计算出每个channel的重要程度，进行调整

3.2 Proposal refinement

这里只说关于refine的这一个branch，先补充一个先验，就是作者发现大部分的文本为长条状的，上下的边界点是具有一种近似的对称性的，所以对于文本边界点的预测可以采用上下点同时预测的形式，而不是采用顺顺时针预测的形式，这种预测的方法更贴近文本的几何特征和对LSTM的理解

【论文阅读】Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation

【论文阅读】Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation

roi pooling提取到的特征会被全部输入到每个step中，而得到两种参数，第一种是对当前step的上下点的预测，第二种是对是否停止预测点的预测。分为两种类型的输出是因为这两种类型的数据形式差异比较大，所以分成两路输出。

其中（ $x_{1}$ ， $y_{1}$ ， $x_{2}$ ， $y_{2}$ ）分别表示上下两个点的坐标。

同时，为了更好的回归，这个参数是归一化之后的参数即ground truth为

【论文阅读】Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation

其中， $x_{a}$ , $y_{a}$ 为proposal的中心点， $w_{a}$ 和 $h_{a}$ 为proposal的宽和高

3.3 loss的设计

【论文阅读】Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation

上面是（ $x_{1}$ ， $y_{1}$ ， $x_{2}$ ， $y_{2}$ ）的loss，而stop和continue的loss为只对continue的概率做log

思考

虽然说加入了LSTM能够解决不定长文本需要不定长的点序列来表示外观，但是这种思想在训练的时候并没有很好的体现。这里应该有个对齐的机制点的数量会与某种内在联系，比如字母的数量等对齐，会让LSTM的加入更有针对性。这里我觉得可以用识别的label来确定有多少个点。