java word文档转HTML
本方法原理是将word文档转为PDF,然后再将PDF转为HTML,在目前来看,这个方法的转换是最有效的。
下图为转换后的效果
需要的辅助包如下,由于使用了jacob,所以你需要自己配置一下,具体配置可以google
其中wordToImageHelp.jar文件就是封装好的文件,以下是测试代码
package com;
import java.util.List;
import word.FileBean;
import word.FileHelp;
public class Test {
public static void main(String[] args) {
long tim1 = System.currentTimeMillis();
//System.getProperty("java.library.path");
FileHelp fh = new FileHelp();
List<FileBean> beans = fh.fileTreat("D:\\test\\test.doc", "D:\\test\\");
for(int i=0;i<beans.size();i++){
System.out.println("当前第"+i+"页,地址:"+beans.get(i).getFileDir());
List<String> images = beans.get(i).getImageDirList();
for(int j=0;j<images.size();j++){
System.out.println("图片地址"+j+":"+images.get(j));
}
}
long tim2 = System.currentTimeMillis();
System.out.println("共用时间:"+(tim2-tim1));
}
}
输出代码
当前第0页,地址:D:\test\1358679261980.html
图片地址0:D:\test\1358679261559.png
当前第1页,地址:D:\test\1358679263462.html
图片地址0:D:\test\1358679263306.png
共用时间:15194
直接复制html路径,在浏览器中浏览即可。