使用PDFBOX从PDF

问题描述:

提取文本近日编码了错误的字符,我不得不索引PDF到ElasticSearch和使用PDFBOX来提取PDF文本,但我得到了编码这样使用PDFBOX从PDF

Ýëĭ2ĈjŬj§ė¥ 
1 ŋ?nij"2$ 2016£ 2Ú 5Õ,”Òªj§?ně#ij"2ě 
^ë2ļŘœ A$j§?n 2016£ě#ëÖĭ2Ĉļê  
2 èÅŋ?n$ 2016£ 2Ú 6ÕöĿS¿ ĿS¿ ĿS 
Õ¿ ĿSÖ¿ eöĿS&غĨĘ 
http://www.sse.com.cnLćĈ 
A$j§Ýëĭ2ĈŘĐ 

我的代码是错误的字符与此页面上的说明完全相同here。我尝试从0.8.x到2.0.x的pdfbox lib版本,但它仍然无法工作。

任何帮助或建议将不胜感激!

+1

对Adobe Reader有用吗?你能分享PDF吗? –

+0

这里是我的[pdf](http://111.203.34.66:8443/mnt/storage/stock/2016/02/24/e2a9227a3565f947271244ef2716ae09483a6559.pdf)。有关于如何用Adobe Reader拍摄这个问题的任何文档? – abu

+0

我也没有得到Adobe Reader的任何东西,除了几个“2016”。请参阅https://pdfbox.apache.org/1.8/faq.html#notext以及下面的答案。 –

我从@Tilman评论得到答案。

请参阅pdfbox.apache.org/1.8/faq.html#notext以及下面的答案。

+0

最好是添加一些文本,而不是仅链接答案。 –