从Tesseract(OCR)扫描中提取日期非常困难。需要援助

问题描述:

我发现很难从下面的扫描中提取日期。 看起来很简单,但结果不是很好。 我试图使用TextCleaner/Convert来预处理图像无济于事。 任何人都可以帮忙吗?从Tesseract(OCR)扫描中提取日期非常困难。需要援助

Scan that I need to extract dates from.

也许你shoudl考虑选择更好的OCR。 Tesseract是免费的,足够用于许多目的,但它与领先的纪念OCR引擎没有任何区别。以下是ABBYY可以对此图像执行的操作,无需事先进行任何扩展或预处理(它可以自动执行所有预处理)。它不仅拿起所有的文本,也是数字:

enter image description here

您可以自己玩周围用demo tool here(无需注册)。对于特定的结果,我选择了“英文”/“文字提取”/“自动”参数。

声明:我为ABBYY工作