解析POI中的HTML内容

问题描述:

我正在使用POI来创建电子表格报告,我有html内容与<p>,<b/>, &nbsp;等,我如何解析这些html标签在POI? POI中有没有可以解析html内容的函数?解析POI中的HTML内容

这是我的POI代码示例:

HSSFCell cell = getHSSFCell(mysheet, 5, 1); 
cell.setCellValue(new HSSFRichTextString(htmlContent)); 

预先感谢您。

POI不适用于HTML,适用于MS Office。你想使用的是你的HTML解析部分的Xpath。 XPath是它自己的兔子洞,所以我不会去到它的细节很多,但这里有一些资源,对Java的XPath:

roseindia tutorial

javadocs

IBM Xpath API

其中一个简单的解决方案是使用HTML解析器解析HTML内容,然后使用POI设置文本。我使用了Jericho HTML Parser。 http://jericho.htmlparser.net/docs/index.html

一个简单的HTML解析使用杰里科:

Source source = new Source("The HTML Text"); 
String parsedHTMLText = source.getTextExtractor().toString();