正常方法失败时从PDF文件中恢复文本
问题描述:
我有几百个PDF文件,需要从中抽取部分文本。对于很多人来说,pdftotext工作正常,但对于其他人来说,它会丢失大段文字。如果我在Acrobat中打开PDF,然后选择手动文本和复制/粘贴到Emacs,然后查看该文件没有编码,我得到的东西是这样的:正常方法失败时从PDF文件中恢复文本
Husband \364\200\200\272\364\200\201\213\364 etc.
我该如何正确提取文本?
我应该提到,我试过将文件保存为Acrobat;也尝试在复制之前应用Acrobat的Document => OCR功能。
您是否阅读了右侧**相关**栏中的所有链接?为了解决问题的规模和缺乏普遍的通用解决方案?也许如果你发布样本,有人可能会建议你的特例的解决方案。而且,为了使OCR正常工作,您应该首先光栅化文件。 – user2846289
谢谢@VadimR这些是有益的建议。 – vortek