使用PDFBOX从PDF
问题描述:
提取文本近日编码了错误的字符,我不得不索引PDF到ElasticSearch和使用PDFBOX来提取PDF文本,但我得到了编码这样使用PDFBOX从PDF
Ýëĭ2ĈjŬj§ė¥
1 ŋ?nij"2$ 2016£ 2Ú 5Õ,”Òªj§?ně#ij"2ě
^ë2ļŘœ A$j§?n 2016£ě#ëÖĭ2Ĉļê
2 èÅŋ?n$ 2016£ 2Ú 6ÕöĿS¿ ĿS¿ ĿS
Õ¿ ĿSÖ¿ eöĿS&غĨĘ
http://www.sse.com.cnLćĈ
A$j§Ýëĭ2ĈŘĐ
我的代码是错误的字符与此页面上的说明完全相同here。我尝试从0.8.x到2.0.x的pdfbox lib版本,但它仍然无法工作。
任何帮助或建议将不胜感激!
答
我从@Tilman评论得到答案。
请参阅pdfbox.apache.org/1.8/faq.html#notext以及下面的答案。
+0
最好是添加一些文本,而不是仅链接答案。 –
对Adobe Reader有用吗?你能分享PDF吗? –
这里是我的[pdf](http://111.203.34.66:8443/mnt/storage/stock/2016/02/24/e2a9227a3565f947271244ef2716ae09483a6559.pdf)。有关于如何用Adobe Reader拍摄这个问题的任何文档? – abu
我也没有得到Adobe Reader的任何东西,除了几个“2016”。请参阅https://pdfbox.apache.org/1.8/faq.html#notext以及下面的答案。 –