java图片文字自动识别

最近有一个功能需要实现:利用图片将图片里的文字提取出来,然后生成文本。
查阅了相关资料,决定利用tessreact 引擎技术去实现。下载该软件需要配置环境变量,通过环境变量在dos命令下进行相关图片文字解析操作,为了使程序更加简单,采用tess4j包去实现。
步骤一:

下载包(此处我采用后者):阿里云maven仓库 或者 创建maven项目在pom.xml中配置

 <dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>3.2.1</version>
</dependency>

步骤二:

下载中文包(地址推荐):https://github.com/tesseract-ocr/tessdata 选择chi_sim.traineddata文件进行下载

步骤三:

将下载的chi_sim.traineddata放入包tess4j包的tessdata目录下

接下来我们测试效果:

package ocr;

import java.io.File;

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;


public class App 
{
    public static void main( String[] args )
    {
    	File imageFile = new File("F:\\开发资料\\项目工具包\\ocr10.jpg");    
        ITesseract instance = new Tesseract();  // JNA Interface Mapping    
        /*
        如果采用的不是使用包默认的testdata建议加上一下一行代码:
        instance.setDatapath("D:\\myworks\\BusinessManager\\WebRoot\\tessdata");
        */
//         ITesseract instance = new Tesseract1(); // JNA Direct Mapp
        instance.setLanguage("chi_sim");//添加中文字库  
        
        try {    
            String result = instance.doOCR(imageFile);    
            System.out.println(result);    
        } catch (TesseractException e) {    
            e.printStackTrace();  
        }
	}
}

需要处理的图片:
java图片文字自动识别

效果:java图片文字自动识别

使用tess4j的建议:经过我的测试,tess4j宋体的识别率会高很多,别的字体的识别率不是很乐观,并且图片中尽量做到字体无特殊符号的干扰,识别才会更准确。(图片文字识别要求不用过于严格,机器的识别按目前技术的发展达不到100%的识别率。)