CTPN论文理解

Detecting Text in Natural Image with Connectionist Text Proposal Network

 Zhi Tian1, Weilin Huang?1,2, Tong He1, Pan He1, and Yu Qiao1,31Shenzhen Key Lab of Comp. Vis and Pat. Rec.,Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences2University of Oxford 3The Chinese University of *{zhi.tian;wl.huang;tong.he;pan.he;[email protected]}

论文地址:https://arxiv.org/pdf/1609.03605.pdf

摘要。我们提出了一种新颖的连接主义文本提案网络(CTPN)准确定位自然图像中的文本行。 CTPN直接检测一系列精细文本提案中的文本行卷积特征映射。我们开发了一种垂直锚定机制它共同预测每个固定宽度的位置和文本/非文本分数提案,大大提高了本地化准确性顺序提案自然地通过递归神经网络连接,其中无缝地融入卷积网络,导致端到端的可训练模型。这使得CTPN能够探索丰富图像的上下文信息,使其极其强大含糊不清的文字。 CTPN可以在多尺度和多语言文本上可靠地工作而无需进一步的后处理,与以前不同自下而上的方法需要多步后过滤。它达到了0.88ICDAR 2013和2015年基准测试中的0.61 F测量结果,大大超过了最近的结果[8,35]。 CTPN是计算上的通过使用非常深的VGG16模型[27],效率为0.14s / image。在线演示可在以下位置获得http://textdet.com/.

关键词:场景文本检测,卷积网络,递归神经网络,锚机制

1 Introduction

自然图像中的阅读文本最近引起了越来越多的关注计算机视觉[8,14,15,10,35,11,9,1,28,32]。 这是由于其众多实用性图像OCR,多语言翻译,图像检索等应用它包括两个子任务:文本检测和识别。 这项工作重点关于检测任务[14,1,28,32],这比识别更具挑战性任务是在一个精心裁剪的单词图像上进行的[15,9]。 文本差异很大模式和高度混乱的背景构成了准确文本的主要挑战本土化。

CTPN论文理解

图1:(a)连接主义文本提案网络(CTPN)的体系结构。 我们通过最后的卷积图(conv5)密集滑动3X3空间窗口VGG16模型[27]。 每行中的顺序窗口是循环的通过双向LSTM(BLSTM)[7]连接其中每个窗口的卷积特征(3X3XC)用作256D BLSTM的输入(包括两个128D LSTM)。 RNN层连接到512D全连接层,其次是输出层,它共同预测文本/非文本分数y轴k锚的坐标和侧面细化偏移。 (b)CTPN产出顺序固定宽度精细文本提案。 每个框的颜色表示文字/非文字分数。 仅呈现具有正分数的框。

当前用于文本检测的方法主要采用自下而上的流水线[28,1,14,32,33]。它们通常从低级字符或笔划检测开始,通常后面是许多后续步骤:非文本组件过滤,文本行构造和文本行验证。这些多步骤自下而上的方法通常很复杂,缺乏稳健性和可靠性。它们的性能很大程度上依赖于字符检测的结果已经提出了连通分量方法或滑动窗口方法。这些方法通常探索低级特征(例如,基于SWT [3,13],MSER [14,33,23]或HoG [28])将文本候选与背景区分开来。然而,在没有上下文信息的情况下,通过单独识别单个笔画或字符,它们并不健壮。例如,它对人们更有信心识别一个字符序列而不是一个字符序列,特别是当a性格极其暧昧。这些限制经常导致字符检测中存在大量非文本成分,从而导致主要困难按以下步骤处理它们。此外,正如[28]中所指出的,这些错误检测很容易在自下而上的流水线中顺序累积。至解决这些问题,我们利用强大的深层功能直接在卷积图中检测文本信息。我们开发了文本锚机制准确地精确预测文本位置。然后,网内反复出现建议将这些精细规模的文本提案按顺序连接起来,允许他们编码丰富的上下文信息。

深度卷积神经网络(CNN)最近基本上推进了基因对象检测[25,5,6]。最先进的方法更快Region-CNN(R-CNN)系统[25],其中建议区域提议网络(RPN)直接从以下方法生成高质量的类别不可知对象提议卷积特征映射。然后将RPN提议输入快速R-CNN[5]进一步分类和改进的模型,导致最先进的技术通用对象检测的性能。但是,很难应用这些一般物体检测系统直接用于场景文本检测,一般来说需要更高的定位精度。在通用对象检测中,每个对象有一个明确定义的封闭边界[2],而这样一个明确界定的边界可能在文本中不存在,因为文本行或单词由多个单独的组成字符或笔画。对于物体检测,定义了典型的正确检测松散地,例如,在检测到的边界框与其之间的重叠> 0.5基本事实(例如,PASCAL标准[4]),因为人们可以认识到容易从它的主要部分。相比之下,全面阅读文本是一个细粒度的识别任务,需要正确的检测,涵盖一个文本行或单词的完整区域。因此,文本检测通常需要一个更准确的定位,导致不同的评估标准,例如,Wolf的标准[30]通常由文本基准[19,21]使用。

可以参考这个链接,讲解的很清晰:http://www.neurta.com/index.php/node/414