python使用Tesseract,pytesseract图片处理识别

1.安装tesseract-ocr,tesseract-ocr为google的ocr识别引擎,如:tesseractocr-setup-3.05.01.exe

双击程序安装即可,可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,但下载语言包很慢,可以直接从https://github.com/tesseract-ocr/tessdata下载语言包文件,然后复制到Tesseract的安装目录C:\Program Files (x86)\Tesseract-OCR\tessdata目录下,最后配置下环境变量,将C:\Program Files (x86)\Tesseract-OCR添加到环境变量path中

验证tesseract安装成功

python使用Tesseract,pytesseract图片处理识别

2.安装pytesseract,pytesseract是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,它是Google的Tesseract-OCR引擎包装器 

安装方法:pip install pytesseract

3.安装pillow,PIL:Python Imaging Library,是Python平台事实上的图像处理标准库,功能非常强大,但API却非常简单易用。

由于PIL仅支持到Python 2.7,加上年久失修,于是一群志愿者在PIL的基础上创建了兼容的版本,名字叫Pillow,支持最新的Python 3.x,又加入了许多新特性。

安装方法:pip install pillow

4.找到testData所在的目录,默认情况下是在tesseract安装的目录,在环境变量中设置TESSDATA_PREFIX的环境变量为testdata所在的目录:D:\Program Files (x86)\Tesseract-OCR

5.测试图片处理脚本如下

import pytesseract
from PIL import Image

# pytesseract.pytesseract.tesseract_cmd = 'D://Program Files (x86)/Tesseract-OCR/tesseract.exe'
text = pytesseract.image_to_string(Image.open('E://111.jpg'))

print(text)

测试图片:

python使用Tesseract,pytesseract图片处理识别

运行结果:

python使用Tesseract,pytesseract图片处理识别

总结:pytesseract对黑白图片的识别处理测试还可以,但是对彩色图片识别率不是很高,如果需要处理彩色图片,需要先对图片进行灰度处理,去噪等操作,后期再补充。