识别来自OCR图像的关键数据

问题描述:

是否有人知道任何产品,库或解决方案商业或开源或甚至可以协助解决以下问题的方法;识别来自OCR图像的关键数据

我正在使用Nuance的Omnipage进行OCR处理。这很好。但我想根据各种模式以各种形式查找数据。这可能是会计凭证,但重要的是即使原始数据的类型是异构的,并且存在共同的因素,但是它们很难以基于规则的方式来定义。 我发现这部分地解决我的问题一个较早的问题(但它认为我已经结构化的PDF格式的,我不)

有几个共同因素 *类型的文件都差不多 *定关键词要么在我正在寻找的东西的前面或上面,但这些关键字可能有同义词 *有像日期这样的数据可能是基于国家的不同格式;例如DD/MM/YYYY,MM/DD/YYYY,YYYY-MM-DD,DD'th MMM,YYYY等(我想我们知道国家) *金额可以用小数点或小数点逗号我们知道这个国家)

据我所知,你需要为半结构化表单构建数据捕获解决方案:它们都包含基本相同的一组数据,但布局可能因文档的来源而有所不同。没有银色的子弹,你需要定义一些规则,以便如何在文档中找到正确的字段,以及可能的synonims是什么关键字,关键字和数据本身之间的几何关系是什么。

但是,有一种产品可以使这个过程变得更加简单,而且在C++中编程需要用可视化工具描述这种关系,这种工具是专门为此设计的,并且已经内置了很多东西。

ABBYY FlexiCapture

该产品是相当强大的,streamiles文档布局desciptions,它的测试和数据提取自身的发展。

也有它的一个SDK版本:

ABBYY FlexiCapture Engine

声明:我ABBYY

+0

的作品就是这种基于服务器的?我不想处理每一个案件,但想要“教”系统如何识别,因为经常使用相同类型的文件。 – 2012-04-20 04:30:32

+0

这就是它的意义所在:你教它用于典型布局,然后自动处理这些布局。这并不完全不可思议 - 一旦你遇到一些新的布局,你仍然需要技术,但这在任何情况下都是不可避免的。它也有服务器版本。 – Tomato 2012-04-20 06:34:05