windows系统pytesseract库安装及在Python中使用

Tesseract-OCR字符识别简介
OCR(Optical Character Recognition)：光学字符识别，是指对图片文件中的文字进行分析识别，获取的过程。
Tesseract：开源的OCR识别引擎，初期Tesseract引擎由HP实验室研发，后来贡献给了开源软件业，后经由Google进行改进，消除bug，优化，重新发布。
1.tesseract-OCR下载安装
https://digi.bib.uni-mannheim.de/tesseract/
2.安装完成后查看安装版本
windows系统pytesseract库安装及在Python中使用
3.设置环境变量

4.python3环境安装Tesseract
pip install pytesseract
5.修改pytesseract.py文件
例如：我的安装路径在c盘，修改如下：

6.识别效果如下：

使用中可以结合Opencv或者PIL使用
注：识别效果准确率不太高，后期将会讲解如何对图片做灰度、二值化、开运算等对图片进行处理以提高识别准确率以及如何通过tesseract来训练自己的样本，来提高准确率

windows系统pytesseract库安装及在Python中使用

相关推荐