从扫描的发票中提取发票号码,发票日期等pdf(Java)

问题描述:

我不想使用Java提取发票号,发票日期,税额和发票价格。发票被扫描并保存为PDF。有没有人知道这个相对简单的可能性?从扫描的发票中提取发票号码,发票日期等pdf(Java)

+0

是的,它是可能的:对 – xander

+0

嗯......也许。这取决于PDF。然而,让生成发票的程序也以另一种格式发送细节的确会好得多(也更简单)。 –

完全有可能。根据多少努力,你愿意花,你打算什么上下文,你可以做至少两件事情:

  • 使用iText7核心,从您的PDF文件中提取文本,然后用正表达式在该文本中查找内容

  • 使用pfd2Data(iText7的附件)将发票(或其他pdf文档)与模板文档进行匹配。如果匹配成功,pdf2Data将生成一个xml文件,其中包含pdf中的所有数据(您在模板中指定的文件)。从xml数据源提取数据应该很简单。

http://developers.itextpdf.com/content/best-itext-questions-stackoverview/content-parsing-extraction-and-redaction-text/itext7-how-read-text-specific-position

http://itextpdf.com/blog/pdf2data-extract-information-invoices-and-templates