使用Adobe API提取PDF内容

问题描述:

我想读取由多个表格组成的PDF文件的内容。通过使用Java和Adobe API,如果所有单元格都有一个signle行内容,我可以提取表格中的内容。问题出现在单元格有多行时,导致提取的内容移动到下一行,从而导致与表头不匹配。使用Adobe API提取PDF内容

是否有任何方法可以从PDF中提取内容,使表格格式与在PDF中显示的方式保持相同?我目前使用\ t转义字符来提取数据。

+0

一般从打印格式的原始数据的提取需要来定位锚点知道何时转变状态中的应用。在你的表格中,你可能有分界线或某种关键文本的形式。我不想错过这样的工作。 – PaulProgrammer 2015-02-10 19:43:09

PDF中的文本未格式化。他们似乎被格式化。同样,表格只是线条图和文字。您需要一个可以智能重构页面元素的PDF库。但是不管图书馆有多聪明,总会有几条线路被打破。

下面是由我公司制作的Java PDF库PDFOne尝试的屏幕截图。公平地说,可能有其他图书馆可以这样做。你将不得不对你的PDF文件进行一些测试,看看哪一个是好的。

http://www.gnostice.com/nl_article.asp?id=232&t=PDF_Text_Search_And_PDF_Text_Extraction_Using_PDFOne_for_Java

enter image description here