正常方法失败时从PDF文件中恢复文本

问题描述：

我有几百个PDF文件，需要从中抽取部分文本。对于很多人来说，pdftotext工作正常，但对于其他人来说，它会丢失大段文字。如果我在Acrobat中打开PDF，然后选择手动文本和复制/粘贴到Emacs，然后查看该文件没有编码，我得到的东西是这样的：正常方法失败时从PDF文件中恢复文本

Husband \364\200\200\272\364\200\201\213\364 etc.

我该如何正确提取文本？

我应该提到，我试过将文件保存为Acrobat;也尝试在复制之前应用Acrobat的Document => OCR功能。

您是否阅读了右侧**相关**栏中的所有链接？为了解决问题的规模和缺乏普遍的通用解决方案？也许如果你发布样本，有人可能会建议你的特例的解决方案。而且，为了使OCR正常工作，您应该首先光栅化文件。 – user2846289

谢谢@VadimR这些是有益的建议。 – vortek

答

为什么不先将PDF转换为doc或txt？请参阅指南： http://www.aolor.com/pdf-converter/user-guide.html