利用iText提取从PDF数学文本

问题描述:

我有一个PDF教科书具有数学公式是这样的:Sample PDF利用iText提取从PDF数学文本

但是,如果我尝试简单的文本提取我得到的线沿线的东西: V(R)= - 3 - - 2R R2 这不是图像,它是文本,但我不知道如何保留它的外观,并将实际字符转换为文本文件。

+0

这是一个旧链接,但我猜测它仍然是true:“iText不是TeX。 在TeX你有运营商绘制这样的公式。 在iText中,你必须自己绘制所有东西。“:http://itext.2136553.n4.nabble.com/Display-mathematical-formula-using-iText-td2151852.html。建议:用[iText RUPS]检查.pdf内容(http://sourceforge.net/projects/itextrups/) – paulsm4

+0

我不熟悉postscript,它是一种格式的itext可以导出pdf数据吗? –

+0

[“Postscript”](https://en.wikipedia.org/wiki/PostScript)基本上是.pdf中的“P”([Portable Document Format](https://en.wikipedia.org/wiki/Portable_Document_Format) ))。 – paulsm4

您遇到的问题是经常遇到的问题。 PDF基本上不关心结构。它没有列,段落,一行文本甚至一个词的概念,更不用说有很多特殊格式的数学公式。

PDF - 本质上 - 只关心在特定位置的页面上放置东西。这也正是它对你的公式所做的,它会使用你的公式需要的字符和图形,并把它们放在页面上的某个地方。如果没有任何额外的知识,你可以使用后来发现这些字符和图形甚至属于公式;更不用说在进行文本提取时重建它。

另外有两点:

1)如果您共享这样一个PDF文档的例子,我们可以看看是否有可能被用在更有能力来提取这个公式在它的一些有用的信息办法;但机会接近于零。

2)您也必须从您的角度定义“有用的方式”。公式不能很好地转换为纯文本文件,因此您可能需要类似MathML的内容来存储它们。

+0

我明白了。有没有办法以某种方式将pdf中的这一部分/公式作为图像打印出来?有没有一个函数库可以让我以某种方式为它提供坐标,而文本通常位于页面上,并返回一个图像?我有什么选择? –

+0

你最好的选择是下载iText RUPS(或类似的工具),看看问题中的元素是如何编码的...... PS:是的,Postscript和PDF是“不同的”。对于初学者来说,后者是一种文档格式,前者是一种语言。但他们之间的关系非常密切。他们都来自同一个供应商。海事组织,他们非常* * *“来自同一堆”。这里有一个链接,进一步解释:http://adobe.com/print/features/psvspdf – paulsm4

+0

你一定能找到能够将PDF文档的一部分转换成图像的库。面临的挑战是找到哪个页面的哪个部分是您想要提取的图像,而不是您想要作为文本提取的文本。如果你对格式有所了解(如果它在某种意义上是固定的布局),这可以完成。如果你有没有固定布局的任意PDF文件,这将是几乎不可能的(或至少真的很难)。 –