java word文档转HTML


 本方法原理是将word文档转为PDF,然后再将PDF转为HTML,在目前来看,这个方法的转换是最有效的。

下图为转换后的效果
java word文档转HTML

需要的辅助包如下,由于使用了jacob,所以你需要自己配置一下,具体配置可以google

java word文档转HTML

其中wordToImageHelp.jar文件就是封装好的文件,以下是测试代码

package com;

import java.util.List;

import word.FileBean;
import word.FileHelp;


public class Test {
	public static void main(String[] args) {
		long tim1 = System.currentTimeMillis();
		//System.getProperty("java.library.path");
		FileHelp fh = new FileHelp();
		List<FileBean> beans = fh.fileTreat("D:\\test\\test.doc", "D:\\test\\");
		for(int i=0;i<beans.size();i++){
			System.out.println("当前第"+i+"页,地址:"+beans.get(i).getFileDir());
			List<String> images = beans.get(i).getImageDirList();
			for(int j=0;j<images.size();j++){
				System.out.println("图片地址"+j+":"+images.get(j));
			}
		}
		long tim2 = System.currentTimeMillis();
		System.out.println("共用时间:"+(tim2-tim1));
	}
}

 输出代码

当前第0页,地址:D:\test\1358679261980.html
图片地址0:D:\test\1358679261559.png
当前第1页,地址:D:\test\1358679263462.html
图片地址0:D:\test\1358679263306.png
共用时间:15194

 直接复制html路径,在浏览器中浏览即可。