场景文字识别的算法创新与应用,来自百度的技术前沿

点击我爱计算机视觉标星,更快获取CVML新技术


几天前,52CV曾经向大家推荐百度家 OCR主题的飞桨博士会:

飞桨博士会第四期,中国深度学习技术俱乐部诚邀您加入

百度组织的这个会比较高端,很多52CV粉丝想去,可惜只允许博士参加。

本文是对这次会议的总结,对于想要了解该领域进展的同学,值得参考。

 

场景文字识别的算法创新与应用,来自百度的技术前沿

本期技术沙龙的主讲嘉宾为百度视觉技术部资深研发工程师孙逸鹏博士,分享主题为《看图识字:场景文字识别技术与应用》,围绕百度场景文字识别基础技术近一年的最新研究工作展开分享,如下为孙博士分享内容概要。

 

文字是人类传递信息的重要载体。在计算机视觉领域,文字识别是最重要的传统AI技术之一,打通了图像和文本的信息鸿沟,拥有广泛的应用场景和使用价值。例如随拍文档、街景、商品、证照、票据等场景文字识别。

近些年来,基于深度学习算法的文字识别技术不断演进,从多模型、多步骤的检测识别方法,逐步发展为单模型的端到端识别方法,系统更加数据驱动、步骤更简化、识别扩展能力更强。

 

下面对百度于2019年度公开发表的几个文字识别领域创新技术算法,进行简单介绍:

 

文字检测

基于主干、候选回归、候选区域及精细化二次回归,文字检测算法可对任意文字形状进行精确表示,解决任意形状长行文字检测问题,在公开数据集合达到SOTA检测定位效果。

详情请参见文章:C. Zhang, et al, Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes, in Proc. of CVPR’19

https://arxiv.org/abs/1904.06535

 

借鉴目标检测中的经验,为提升检测速度,研究者通过单阶段模型结构与多分支输出设计对文字候选区域表达,多任务学习、单阶段训练可以取得两阶段、多阶段相当的效果,并提升速度。

详情请参见文章:P. Wang, et al A Single-Shot Arbitrarily-Shaped Text Detector based on Context Attended Multi-Task Learning, in Proc. of ACMMM’19 to appear

https://arxiv.org/abs/1908.05498 

端到端识别

现有文字识别系统以两阶段、多阶段检测、序列识别模型级联为主,非规则文字识别效果精度不足。为克服同时识别规则和非规则文字效果不佳的问题,我们提出端到端OCR识别TextNet算法,通过共享主干、透视RoI变换实现文字检测、空间注意力机制序列识别耦合设计,同时提升非规则行的文字识别效果。

详情请参见文章:Y. Sun, et al, TextNet: Irregular Text Reading from Images with an End-to-End Trainable Network. In Proc. of ACCV’18 oral

https://arxiv.org/abs/1812.09900

针对中文大类别识别场景,我们引入弱标注数据的概念,针对街景场景只标注关键词信息,忽略非重要信息,无需精确位置标注,避免大量精标注全监督数据高成本低效率问题。

基于端到端-部分监督学习方法,弱标注成本是精标注的1/90,弱标识数据量从2万扩增到40万,单模型平均编辑距离AED错误率相对降低20%。取公开英文数据集,端到端部分监督学习在ICDAR 15端到端评测达到单模型尺度SOTA效果。

详情请参见文章:Y. Sun, et al, Chinese Street View Text: Large-scale Chinese Text Reading with Partially Supervised Learning, in Proc. of ICCV 2019, to appear,

https://arxiv.org/abs/1909.07808

 

大规模公开数据集:

为进一步推动中文场景文字识别领域发展,通过构建新的ICDAR 2019-LSVT大规模街景文字、ICDAR 2019-ArT任意形状文字集合,百度携学术界举办两项ICDAR 2019场景文字识别的国际赛事,提供源于百度真实场景图像数据45万,奖金17,800美金,吸引业内各大企业、知名高校研究单位118支参数队伍有效提交结果339个,各大主流媒体报道20余次。百度团队在ICDAR 2019国际会议期间受邀做总结报告并为获奖单位颁奖,展现近年来OCR识别技术的快速发展与应用新高度。

 

详情请参见文章:C. Chng, et al, ICDAR 2019 RobustReading Challenge on Arbitrary-Shaped Text-ArT,in Prof. of ICDAR 2019 Oral,

https://arxiv.org/abs/1909.07741

Y. Sun, et al,ICDAR 2019 Competition on Large-scale Street View Text with Partial Labeling-LSVT,in Proc. of ICDAR 2019 Oral, 

https://arxiv.org/abs/1909.07145

  

当前百度已将场景文字识别技术用于搜索、视频、金融、翻译、地图、百度云等业务,并将场景文字识别能力开源。

CV君曾经在项目中就使用了百度家的相关服务。

百度大脑提供场景文字识别的云端API供开发者们使用,同时证照识别SDK可用于端部署。

百度AI开放平台-卡证文字识别 https://ai.baidu.com/tech/ocr_cards

百度AI开放平台-票据文字识别 https://ai.baidu.com/tech/ocr_receipts

百度AI开放平台-汽车场景文字识别 https://ai.baidu.com/tech/ocr_cars

百度AI开放平台-其他文字识别 https://ai.baidu.com/tech/ocr_others

同时,常用OCR识别模型也已在PaddlePaddle上开源,了解详细介绍可至

https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/ocr_recognition

 

本文转载自飞桨PaddlePadele。


OCR交流群

OCR交流群是52CV最活跃的技术交流群之一,关注文本检测、识别、风格化相关技术,聚集了大量学术界和产业界的朋友,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)

请务必注明:OCR

场景文字识别的算法创新与应用,来自百度的技术前沿

喜欢在QQ交流的童鞋,可以加52CV官方QQ群805388940

(不会时时在线,如果没能及时通过验证还请见谅)


场景文字识别的算法创新与应用,来自百度的技术前沿

长按关注我爱计算机视觉