使用PDFBOX从PDF

问题描述：

提取文本近日编码了错误的字符，我不得不索引PDF到ElasticSearch和使用PDFBOX来提取PDF文本，但我得到了编码这样使用PDFBOX从PDF

Ýëĭ2ĈjŬj§ė¥ 
1 ŋ?nĳ"2$ 2016£ 2Ú 5Õ,”Òªj§?ně#ĳ"2ě 
^ë2ļŘœ A$j§?n 2016£ě#ëÖĭ2Ĉļê  
2 èÅŋ?n$ 2016£ 2Ú 6ÕöĿS¿ ĿS¿ ĿS 
Õ¿ ĿSÖ¿ eöĿS&ØºĨĘ 
http://www.sse.com.cnLćĈ 
A$j§Ýëĭ2ĈŘĐ

我的代码是错误的字符与此页面上的说明完全相同here。我尝试从0.8.x到2.0.x的pdfbox lib版本，但它仍然无法工作。

任何帮助或建议将不胜感激！

对Adobe Reader有用吗？你能分享PDF吗？ –

这里是我的[pdf]（http://111.203.34.66:8443/mnt/storage/stock/2016/02/24/e2a9227a3565f947271244ef2716ae09483a6559.pdf）。有关于如何用Adobe Reader拍摄这个问题的任何文档？ – abu

我也没有得到Adobe Reader的任何东西，除了几个“2016”。请参阅https://pdfbox.apache.org/1.8/faq.html#notext以及下面的答案。 –

答

我从@Tilman评论得到答案。

请参阅pdfbox.apache.org/1.8/faq.html#notext以及下面的答案。

最好是添加一些文本，而不是仅链接答案。 –

相关推荐