论文：Seglink

普通的检测方法并不适合文字检测：
1.word/line bounding box 有比较大的aspect ratios
2.text 具有一个明确的方向

对于上述问题提出一个方法：segment and link
一个 segment 是一个覆盖一个word一部分的有方向的box(对于多个词组成的text line同样适用)
一个link 是连接一对segments，表明它们属于同一个word

这个方法的优点在于可以检测长的，有方向的text locally 。因为检测一个segment 并不需要一个word都被发现，同理link也是。
这个方法的检测策略类似于ssd，但是和ssd有很大的不同。ssd直接输出boundingbox的坐标，这个方法检测word或者text 的两部分（segment 和 link ）,然后结合它们。

每一个boundingbox都是一个有方向的方框，论文：Seglink
在一个feature map的一个像素点只有一个defaultbox，default box 的长宽是一个常量。
predictor 生成7个channel，2个是segment score(0,1)，5个是bounding box offset。
link 有助于combine segments into whole words，也有助于分割两个相邻的words。分为within-layer link (层内连接，周围的八个segment)和cross-layers link(层间link,一个word的segments可能同时被多层检测到，所以引入这个)
论文：Seglink
cross-layer links are detected between conv4_3 and conv7，每一个segment具有4个cross-layer neighbors

网络的输出是segment和link，经过filter之后，将其组成图模型。在图上使用ＤＦＳ算法找出有连接的components，每一个component都包含有被link连接起来的segmrnts。在每一个component中进行如下计算，去合并segments。
论文：Seglink

GroundTruth:
default box 的label ,offset，还有所有的within- cross-layer links
label的确定(positive)：(1) default box 的中心在word bounding box 内 (2) 论文：Seglink word height h ,box size al
link的确定(positive)：(1) 一个link连接的两个default box都是positive (2) 两个default box 匹配同一个word

Optimization:
论文：Seglink
segment classification ,offset regression ,link classification

相关推荐