明亮如星研旅(2)—— A Unified Framework for Multi-Oriented Text Detection and Recognition

呈上一篇基于传统方法的自然场景文字检测识别的文章,尽管文章更多基于前人 方法,但是其框架与思想仍值得借鉴。

[2014-TIP] A Unified Framework for Multi-Oriented Text Detection and Recognition [paper]

 

一、方法简述


  • 这篇文章是作者CVPR2012(C. Yao, X. Bai, W. Liu, Y. Ma, and Z. Tu, “Detecting texts of arbitrary orientations in natural images,” in Proc. IEEE CVPR, Jun. 2012, pp. 1083–1090.,专门做检测)的方法的扩展,本文做的是端到端的问题(检测+识别) 具体这篇文章如何提取特征未看。
  • 采用的框架是传统的方法——用swt检测候选字符区域,字符级分类器(随机森林)过滤非字符噪声,再将字符进行合并成字符串,再切成单词(合并切分算法用的是参考 X. C. Yin, X. Yin, K. Huang, and H. Hao, “Robust text detection in natural scene images,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 36, no. 5, pp. 970–983, May 2014.)   
  • 这篇文章改进的地方重点主要有三点。第一,改造random forest,通过“特征和分类器共享”使得识别和检测用个是同样的特征和分类器(同一个树);第二,字符识别时利用了基于字典搜索的误差矫正方法(按Bing搜索引擎的检索顺序建立的字典);第三,考虑了各种方向的文本(倒立,纵向,从右往左的文字)。
  • 另外两个比较小的点在于:第一,在component linking 和word partition的方法换成了参考文献5(X. C. Yin, X. Yin, K. Huang, and H. Hao, “Robust text detection in natural scene images,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 36, no. 5, pp. 970–983, May 2014.)的方法;第二,大小写判断上采用了一定策略区分了全大写,全小写,首字母大写的情况。
  • 总之这篇文章是基于前人的工作以及作者之前的方法,首先一定要看 Robust text detection in natural scene images这篇文章。

二、方法框架 


 明亮如星研旅(2)—— A Unified Framework for Multi-Oriented Text Detection and Recognition

三、创新与贡献点


  • 解决任意方向的文字识别问题(曲线,纵向,上下颠倒,从右往左的文字),应该是之前文章的工作。
  • 证明了检测和识别可以用同样的特征和分类器
  • 字符识别时利用了基于字典搜索的误差矫正方法
  • 新的数据库Hust-TR400

四、方法细节


 明亮如星研旅(2)—— A Unified Framework for Multi-Oriented Text Detection and Recognition

  • 上图为对原来的工作框架,下图为本篇工作框架的改进。

明亮如星研旅(2)—— A Unified Framework for Multi-Oriented Text Detection and Recognition

  • random forest分类器的改造


     明亮如星研旅(2)—— A Unified Framework for Multi-Oriented Text Detection and Recognition

  每棵树分正叶子节点(红)和负叶子节点(蓝),正叶子节点对应字母表的直方图分布。随机森林树的节点分支具有类似于“聚类”的功能,会把相似的字符落在同一节点上,例如,"i,j,l"这些可能落在同一个正节点上,因此,不同的正节点字符的概率分布是不一样的,也就是说,每个节点自带了类似于“字符识别”这样的功能(通过落在该节点上的所有样本字符lable的直方图统计来估计),因此检测和识别可以进行分类器共享。具体的计算式:

明亮如星研旅(2)—— A Unified Framework for Multi-Oriented Text Detection and Recognition

明亮如星研旅(2)—— A Unified Framework for Multi-Oriented Text Detection and Recognition

T:代表随机森林中树的棵数

 

  • 字符识别的误差矫正方法


    有些字符本身特别像('I' 和'l'),或者依靠字符分类器根本分不开('S'和's','C'和'c'),如下图所示,则需要联系上下文(是否构成单词)进行矫正。

明亮如星研旅(2)—— A Unified Framework for Multi-Oriented Text Detection and Recognition

 

1、 采用的思路:给一个字典,把识别出的结果与字典里的每一个词进行对比,取相似度最大的词作为校正后的识别结果

 2、字典的选择:不用传统字典,而是用按Bing搜索引擎的检索顺序建立的字典,字典规规矩矩按字母顺序搜索相匹配的单词,这种把实际使用的频率也考虑进去应用性会更强。

3、编辑距离:Levenshtein 编辑距离(替换,删除,插入), 替换的权重与插入,删除不一样,而且不同字符互换的权重也应该不同。Θ替换为v的概率取决于样本x经分类器判断可能是v的概率与可能是Θ的概率的比值。即认为,分类器判断一个待测样本是'l'的概率(0.3)与是'j'的概率(0.28)相近,而与'z'的概率(0.01)相差很大,所以,'l'替换成'j'的代价更小,替换成'z'的代价更大。即越相似的样本替换的代价越小→编辑距离越小→相似性越大。(这种方法是否合适???) 

明亮如星研旅(2)—— A Unified Framework for Multi-Oriented Text Detection and Recognition

4、相似度度量:考虑了编辑距离d和字典中的排序r(λ值通过实验调整)明亮如星研旅(2)—— A Unified Framework for Multi-Oriented Text Detection and Recognition

5、考虑多方向及其正反序:首先字符一定是按顺序排列的,要么是第一个开始链到最后一个(正序),要么是最后一个开始链到第一个(反序)。其次,考虑的时候,把两个顺序都要考虑进去,选择相似性更高的一个方向作为最终单词的形成方向。具体计算为:

明亮如星研旅(2)—— A Unified Framework for Multi-Oriented Text Detection and Recognition明亮如星研旅(2)—— A Unified Framework for Multi-Oriented Text Detection and Recognition

 L为字符串,N为L中的单词数,s(wi)表示第i个单词与字典里的单词的最大相似值,s(L)为正序链的总相似性,s←(L)表示反序链的相似性,O(L)表示最终确定的方向,下图能够比较好的解释: 

明亮如星研旅(2)—— A Unified Framework for Multi-Oriented Text Detection and Recognition

6、大小写歧义性如何解决:根据我们一般约定,字母大小写只有三种:

明亮如星研旅(2)—— A Unified Framework for Multi-Oriented Text Detection and Recognition

7、训练数据:这里训练的数据选择还是比较特别的

  • 正样本:合成库,100k,图像来源(Wang的方法合成,K. Wang, B. Babenko, and S. Belongie, “End-to-end scene text recognition,” in Proc. IEEE ICCV, Nov. 2011, pp. 1457–1464.),除了随机平移变换,高斯噪声和模糊,还加入了各种方向的变化。
  • 负样本:真实的自然场景图像库,30k, 图像来源(没有任何文字的图像,6个库)

明亮如星研旅(2)—— A Unified Framework for Multi-Oriented Text Detection and Recognition

        这样选择的训练数据有其优缺点,优点:1、可以排除训练数据背景的干扰,这也是主要原因。2、对于不同场景具有鲁棒性,不局限于某类数据的场景,具有泛化性。缺点:1、这种方式得到结果的准确率相对针对某类数据集的要低一些,理由也是显然的。

 

五、总结


 本篇文章还是更多基于前人的工作,个人觉得创新点较少,或许我要求太高了,可能现阶段我们的研究还只能在前人基础上做少许改进,谈谈我个人对整篇文章看法:

  • 优点:
  1. 对任意线性方向文字的适应性。
  2. 不采用传统词典,而是使用Bing搜索引擎的搜索顺序建立词典,考虑到使用频次。
  3. 建立了多方向HUST-TR400库并且公开了数据集,实属难得。
  • 缺点:
  1. 基于传统复杂特征设计的方法。
  2. 文章提出的基于随机森林分类器改进方法的实用性保持一定的怀疑态度。
  3. 相似性度量方式替换的合理性值得商榷。

 

博客参考:

https://www.cnblogs.com/lillylin/p/6164529.html