在window中安装tesserocr的步骤,亲测

最近在用python学习网络爬虫,在自动识别验证码的那一节中,书上使用的是tesserocr 库。但是按照书上的安装过程操作一直报错,尝试了很久都没有安装成。,最后通过在网上找各种教程和很多大佬的分享,成功安装了。现在总结一下,分享给需要的人。废话不多说,开装

第一步:安装tesseract

tesserocr这个库是tesseract这个软件的一个python封装,python是通过tessercor 库来操作tesseract进行识别图片,所以要在python中使用该库,首先需要安装tesseract这个软件。
点击下载链接:http://digi.bib.uni-mannheim.de/tesseract,选择想要安装的版本,我当时安装的是3.05版本。注意:安装完之后,将安装的目录加入系统环境变量中。详细操作可以参考https://jingyan.baidu.com/article/6181c3e0c731ba152ef153cf.html
**

第二步:安装Aconda

**
书上包括很多网站上都是介绍直接使用pip命令安装,但是尝试过很多次都没有成功,一直会有新的错误报出来,最后决定使用aconda进行安装。关于Aconda的介绍与使用方法,可以看一下https://www.jianshu.com/p/eaee1fadc1e9
Aconda官网下载很慢,可以去清华镜像网站去安装,下载地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/,注意,不同版本的aconda支持的python版本不一样。我当时下载的是Anaconda3-2020.02-Windows-x86_64.exe,它是支持python3.7的。安装过程很简单,但是安装过程进行到下图时:
在window中安装tesserocr的步骤,亲测

我用红色框圈起来的两个选项都不要勾选,第一个勾选的话会和电脑中已经安装的python起冲突。
安装完成后,打开Anaconda Navigater,进入Environments。
在window中安装tesserocr的步骤,亲测

刚打开的时候有base一个环境,为了得到一个纯净的python环境,我又新建了一个环境,通过点击下面的create按钮,选择你要的python版本,点击确定就可以了。
接下来将aconda添加到系统变量中,在aconda安装目录下,找到Scripts目录,然后将它添加到电脑系统中的环境变量,到此为止aconda算是安装完成了。
**

第三步:安装tesserocr

**
首先根据你安装的python版本与tesseract版本选择合适的tesserocr的库进行下载,链接:https://github.com/simonflueckiger/tesserocr-windows_build/releases,下载完之后开始安装,
首先进入cmd,通过activate 命令选择之前创建的python环境,如下图所示:
在window中安装tesserocr的步骤,亲测
第一行红色划线表示切换到你所建的python环境(在第二步中建的环境是python37,为了重新演示,我又新建了一个ocr,你们做的时候就切换到自己建的环境中就行),切换成功后,命令行前面的地址会加上”(0cr)”,如果这一步报错,有可能是因为你没有将aconda的路径加入系统环境变量。切换环境成功后再安装pillow,如上图所示。
接下来安装tesserocr 如下图:
在window中安装tesserocr的步骤,亲测
直接pip install +tesserocr库的下载路径,到此为止,tesserocr就算安装成功了。
最后,还要将tesseract安装目录下的tessdata文件夹复制到aconda新建的环境中,下图为我的tessdata的所在的目录
在window中安装tesserocr的步骤,亲测
复制到aconda的环境中,我的路径如下图所示
在window中安装tesserocr的步骤,亲测
复制进去之后就可以使用了。如果第一次使用时报错,建议重启一下电脑。如果不行的话,再搜索一下问题的代码,看看网上有没有解决办法吧。


中文简体语言包下载
下载其他语言包,官方给的地址是https://github.com/tesseract-ocr/tessdata,下载很慢,但是好像如果复制下载链接,然后用迅雷下载速度会比较快,有兴趣的话可以去尝试一下。我是使用百度云下载的中文简体语言包,链接为:https://pan.baidu.com/s/1VeTWNKMjYXgne1ILNgyNbw ,提取码:03am
最后感谢文章中的所有大佬的分享,并希望我这次的分享也能帮助到其他人。