PDF使用Tika解析区域

问题描述:

我在用什么:我正在使用Apache Tika解析我的Java应用程序中的PDF。PDF使用Tika解析区域

我需要的是什么:我需要解析我的PDF的某个区域(即由Rectangle对象定义),就像我通常用iText所做的那样。

问题:是否可以使用Apache Tika解析我的PDF的定义区域?怎么样?

+0

每页是否正常,或者您是否需要比此更具体的区域? – Gagravarr

+0

一页中的特定区域... – abierto

Apache Tika将为您提供文档的简化的标准化HTML表示。对于基于页面的格式(如PDF或PPT),它将标记页面边界,但对于非基于页面的格式(例如基于运行的.doc),则不会。

你需要做的是下降到Apache PDFBox,这是在Tika中为PDF解析器提供动力的底层库。使用PDFBox,您可以获取给定页面上对象的位置,找出它们是否在您想要的范围内,并获取它们的文本。它不会像使用Apache Tika一样容易,但是对于这个级别的控制,您需要更多地参与