PDFBOX:将pdf转换为文本或html,包括pdf中的图像

问题描述:

我正在开发一个将pdf转换为html的移动应用程序。我发现了PDFBox,它工作得很好。我在一面和其他图像上获得了PDF文本或HTML。 但我想进一步,我需要生成的HTML包含在PDF中的图像。 可以使用PDFBox完成吗?怎么样? 如果你知道另一个免费的库函数来做到这一点,告诉我。PDFBOX:将pdf转换为文本或html,包括pdf中的图像

在此先感谢。

看看ExtractImages.java - 这将指导您如何从PDF文件中提取图像。

下一步调查PrintImageLocations.java示例 - 您将需要这些位置来正确格式化HTML文件。

+1

谢谢,我有这个想法,但它使用坐标x和y是非常复杂的。现在我试图找到解析图像的地方,然后尝试修改它们。 – Josechu 2012-03-13 11:58:57