从Java扫描的PDF文档中获取像素数据

问题描述:

我有一些使用Xerox扫描仪数字化的PDF文件。使用Java,我试图从中提取RGB像素数据,以用于图像识别应用程序。从头开始开发这项工作有点超出我的水平,所以我依靠第三方库进行PDF检索。从Java扫描的PDF文档中获取像素数据

到目前为止,我已经尝试了2个不同的库; PdfBox和PdfClown。我想用convertToImage()方法获得BufferedImage。使用PdfClown,我尝试使用Renderer类中的render(page,size)方法获得BufferedImage。在这两种情况下,返回的图像是空白的。所有像素都是白色[(r,g,b) = (255,255,255)]。

我已经能够从不是来自扫描的其他pdf文档获得非空白的BufferedImage,所以我怀疑问题是扫描文档的格式。

下面是一个示例PFD文件:http://www.filedropper.com/innlevering1

有谁知道如何解决这个问题?或者你可以提供一个不同的方法?

+0

告诉你,我的方法有效并回来告诉我,它不适用于你的情况它是浪费 - 所以你在找什么?排除图像故障?也许你的代码有一些特殊性 – gpasch

+1

请分享样本PDF。 (并非所有扫描仪都将图像放入PDF文件中...) – mkl

+0

PDFBox 2.0中的PDPage类似乎没有包含convertToImage()方法。你有什么建议可以使用2.0版@TilmanHausherr来做到这一点吗? – Torben

该问题已通过安装JBIG2插件解决。现在一切正常。非常感谢您的帮助。