从Java扫描的PDF文档中获取像素数据

问题描述：

我有一些使用Xerox扫描仪数字化的PDF文件。使用Java，我试图从中提取RGB像素数据，以用于图像识别应用程序。从头开始开发这项工作有点超出我的水平，所以我依靠第三方库进行PDF检索。从Java扫描的PDF文档中获取像素数据

到目前为止，我已经尝试了2个不同的库; PdfBox和PdfClown。我想用convertToImage()方法获得BufferedImage。使用PdfClown，我尝试使用Renderer类中的render(page,size)方法获得BufferedImage。在这两种情况下，返回的图像是空白的。所有像素都是白色[(r,g,b) = (255,255,255)]。

我已经能够从不是来自扫描的其他pdf文档获得非空白的BufferedImage，所以我怀疑问题是扫描文档的格式。

下面是一个示例PFD文件：http://www.filedropper.com/innlevering1

有谁知道如何解决这个问题？或者你可以提供一个不同的方法？

告诉你，我的方法有效并回来告诉我，它不适用于你的情况它是浪费 - 所以你在找什么？排除图像故障？也许你的代码有一些特殊性 – gpasch

请分享样本PDF。（并非所有扫描仪都将图像放入PDF文件中...） – mkl

PDFBox 2.0中的PDPage类似乎没有包含convertToImage（）方法。你有什么建议可以使用2.0版@TilmanHausherr来做到这一点吗？ – Torben

答

该问题已通过安装JBIG2插件解决。现在一切正常。非常感谢您的帮助。

从Java扫描的PDF文档中获取像素数据

相关推荐