win8.1装tesseract和tesserocr全是坑

这里不讲那些逻辑和原理,反正本人也搞不清,就谈谈自己的安装时候遇到的问题。

系统是win8.1

tesseract
tesseract安装需要到指定链接去下载(https://digi.bib.uni-mannheim.de/tesseract/)

此次选择的

tesseract-ocr-setup-3.05.01.exe

为什么选它,是因为后面tesserocr所要下载的版本必须和tesseract相对应,本来是下载tesseract-ocr-setup-5.0.0.exe的,但是tesserocr没有对应的版本,所以就放弃了,这是其一。

其二,所有含有dev的都是开发版,不带dev的是稳定版,所有选择tesseract-ocr-setup-3.05.01.exe
win8.1装tesseract和tesserocr全是坑
图1
下载完成之后,选择安装,这个就比较简单了,点击next就行了。
win8.1装tesseract和tesserocr全是坑
图2
如图2所示,此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言。然后一路点击Next按钮即可。(当然也可以选择指定目录安装)安装时间蛮久的。

然后cmd打开命令行,输入tesseract -v会报错
win8.1装tesseract和tesserocr全是坑
图7
于是配置两个环境变量,我的电脑——右击——属性——高级系统设置——高级——环境变量——系统变量——path(输入变量名path,变量值D:\Python3.6.0\pythoncorrelation\Tesseract-OCR,这个值就是Tesseract安装的位置即所在路径)这是其一,其二,系统变量——新建(输入变量名TESSDATA_PREFIX,变量值D:\Python3.6.0\pythoncorrelation\Tesseract-OCR,这个值就是Tesseract安装的位置即所在路径)
cmd打开命令行,输入tesseract -v,正确的应该报
win8.1装tesseract和tesserocr全是坑
图8
关于配置两个环境变量的问题,有些文章要求有,有些文章要求没有,这里统一记录下来了。

tesserocr
安装tesserocr的时候有遇到很多坑,先是用pip3 install tesserocr或pip3 install tesserocr pillow下载安装均下载失败。
win8.1装tesseract和tesserocr全是坑
图9
于是转向*下载。*下载之前,需要知道自己的电脑的python和哪个*相配,可以cmd中输入,本电脑是64位,如图10中方框输入。

cmd中输入:python

import pip
import pip._internal
print(pip._internal.pep425tags.get_supported())

win8.1装tesseract和tesserocr全是坑
图10

查看到对应的版本为cp36,cp36m,win64,下载安装的版本为win_amd64。

下载地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases

【电脑是32位的可以试试这个

import pip

print(pip.pep425tags.get_supported())】

win8.1装tesseract和tesserocr全是坑
图11
红色方框是tesseract和tesserocr对应关系,蓝底白字是python和tesserocr的对应关系,

但是,到这里悲剧来了,tesserocr不能下载,总是说是网速的问题,内网和外网,大家都懂的,所以请求看到这篇文章的大神,如果备份了

tesserocr-2.2.2-cp36-cp36m-win_amd64.whl

私聊一个,发份给我吧,网上也找不到现成的已经下载好的了。多谢好心人。

(能下载下来的都是一些残片,不能安装,会报错,提示如图4)file is
not a zip file(不是完整的文件)
win8.1装tesseract和tesserocr全是坑

后续:

如果能下载下来,怎么安装,网上回答也是五花八门的,个人感觉最正确的应该是将tesserocr放入到script包里去安装
win8.1装tesseract和tesserocr全是坑
图12