ICDAR 2019国际竞赛召开在即，百度联合学界重奖破局者！

素有文档图像识别领域“世界杯”之称的 ICDAR 2019国际权威竞赛将于3月1日正式开赛。

奖金总计17400美元！

作为 ICDAR 2019 Robust Reading Competition 竞赛主要组织者之一，百度联合马来亚大学、华南理工大学、西班牙计算机视觉中心、中国图象图形学学会共同发布了两项极具挑战的竞赛任务：

ICDAR 2019-LSVT（Large-scale Street View Text with Partial Labeling，弱标注大规模街景文字识别竞赛）、ICDAR 2019-ArT（Arbitrary-Shaped Text，任意形状场景文字识别竞赛）。

本次竞赛奖金总计17400美元，欢迎国内外学术界、工业界各大机构华山论剑一较高下。

赛事介绍

ICDAR（International conference on Document Analysis and Recognition）是全球文档图像分析识别领域公认的权威学术会议，从1991年起每两年召开一次。

ICDAR 2019国际竞赛召开在即，百度联合学界重奖破局者！

自 2003 年 ICDAR 设立“Robust Reading Competitions”以来，该竞赛就成了评测和检验自然场景/网络图片文本自动提取与智能识别最新技术研究进展的重要国际赛事及标准，竞赛中的诸多方法对 OCR 技术发展具有强大推动力。高技术难度、高实际应用性，也使该盛会受到科研院校、科技公司等关注，至今已有 89 个国家的 3500 多支队伍参与。

2015-2018期间百度多次在 ICDAR 2013、 ICDAR 2015权威竞赛集合获得检测、识别、端到端各项任务榜单第一，位居业内领先水平。

百度将 OCR 深度学习技术应用于多个业务场景，打造文档、翻译、网图、街景等多场景通用文字识别能力，支持中、英、日、韩、葡、德、法、意、西、俄十国语言。

针对金融、保险、交通等重点场景构建 OCR 产品矩阵和 AI 开放平台，百度 OCR 打造了领先的证照、票据识别解决方案。针对终端计算场景，百度 OCR 模型压缩用于多种嵌入式智能设备，OCR 终端 SDK 与多家手机厂商合作，打造领先的视觉终端计算能力。

ICDAR 2019-LSVT

大规模弱标注街景文字识别竞赛

聚焦探索大规模数据场景下深度学习模型算法能力极限，推动大规模弱标注数据下文字识别新方法创新。

ICDAR2019-LSVT 数据集源于百度真实应用场景，作为首个提出弱标注数据的场景文字数据集，包括5万张精标注街景图像、40万张弱标注街景图像，总计45万张，数据量是现有公开数据集（ICDAR 2017、ICPR 2018等）的14倍以上。

室外场景文字识别具有广泛应用场景，例如：拍照翻译、图像检索、街景地标识别、室外场景理解等。

ICDAR 2019国际竞赛召开在即，百度联合学界重奖破局者！

▲精标注数据示例

ICDAR 2019国际竞赛召开在即，百度联合学界重奖破局者！

▲弱标注数据示例

深度学习算法通常需要大量训练数据才能在真实应用中取得良好效果，满足实际场景的应用需求。由于合成数据与真实数据仍存在明显差异，同时大规模精确数据标注成本高，探索利用大规模弱标注数据提升深度学习算法性能具有重要研究意义和实用价值，同时对探索场景文本识别技术能力边界具有显著推动作用。

· 数据集

5万精标注+40万张弱标注街景随拍图像，大规模数据源于实际应用，包含多种复杂场景

· 两项竞赛任务

文字检测、端到端文字识别，奖金 $8,700

ICDAR 2019国际竞赛召开在即，百度联合学界重奖破局者！

ICDAR 2019-ArT

任意形状文字识别竞赛

数据集由 Total-Text、SCUT-CTW 1500和百度非规则文字数据集组成，累计新增7千张任意形状数据，总计10176张，是目前业界最大的任意形状场景文字集合。

现有 ICDAR 文字数据集（ICDAR 2013、ICDAR 2015、ICDAR 2017-MLT，COCO-Text等）只包含水平、四边形文字框等规则文字标注，如下图所示，ICDAR2019-ArT 数据集中每张图像至少含有一个非规则形状文字（irregular text instances），并采用多边形多点对任意形状文字包围框进行精确标注。

ICDAR 2019国际竞赛召开在即，百度联合学界重奖破局者！