正常方法失败时从PDF文件中恢复文本

问题描述:

我有几百个PDF文件,需要从中抽取部分文本。对于很多人来说,pdftotext工作正常,但对于其他人来说,它会丢失大段文字。如果我在Acrobat中打开PDF,然后选择手动文本和复制/粘贴到Emacs,然后查看该文件没有编码,我得到的东西是这样的:正常方法失败时从PDF文件中恢复文本

Husband \364\200\200\272\364\200\201\213\364 etc. 

我该如何正确提取文本?

我应该提到,我试过将文件保存为Acrobat;也尝试在复制之前应用Acrobat的Document => OCR功能。

+2

您是否阅读了右侧**相关**栏中的所有链接?为了解决问题的规模和缺乏普遍的通用解决方案?也许如果你发布样本,有人可能会建议你的特例的解决方案。而且,为了使OCR正常工作,您应该首先光栅化文件。 – user2846289

+0

谢谢@VadimR这些是有益的建议。 – vortek

为什么不先将PDF转换为doc或txt?请参阅指南: http://www.aolor.com/pdf-converter/user-guide.html