Python + tesseract 进行文字识别

效果:

Python + tesseract 进行文字识别

介绍:

这是基于Tesseract的OCR识别,设置中文包属性", lang=‘chi_sim’",程序没做界面 ,只是用递归方法遍历文件夹内所有文件和文件夹,在程序旁边的result文件夹内以相同文件结构放入识别结果。

效果对比:

类型 原图 识别效果
代码 Python + tesseract 进行文字识别 Python + tesseract 进行文字识别
白底黑字的长图 Python + tesseract 进行文字识别 Python + tesseract 进行文字识别
有些颜色的 Python + tesseract 进行文字识别 Python + tesseract 进行文字识别
黑白分明的文字那是没啥问题的 Python + tesseract 进行文字识别 Python + tesseract 进行文字识别
字迹清晰,尽量减少干扰像素是比较好的 Python + tesseract 进行文字识别 Python + tesseract 进行文字识别
英文的话就本身是识别器的强项了 Python + tesseract 进行文字识别 Python + tesseract 进行文字识别
宋体的中文也是可以的 Python + tesseract 进行文字识别 Python + tesseract 进行文字识别
花语 Python + tesseract 进行文字识别 Python + tesseract 进行文字识别