解析POI中的HTML内容

问题描述：

我正在使用POI来创建电子表格报告，我有html内容与<p>,<b/>,  等，我如何解析这些html标签在POI？ POI中有没有可以解析html内容的函数？解析POI中的HTML内容

这是我的POI代码示例：

HSSFCell cell = getHSSFCell(mysheet, 5, 1); 
cell.setCellValue(new HSSFRichTextString(htmlContent));

预先感谢您。

答

POI不适用于HTML，适用于MS Office。你想使用的是你的HTML解析部分的Xpath。 XPath是它自己的兔子洞，所以我不会去到它的细节很多，但这里有一些资源，对Java的XPath：

答

其中一个简单的解决方案是使用HTML解析器解析HTML内容，然后使用POI设置文本。我使用了Jericho HTML Parser。 http://jericho.htmlparser.net/docs/index.html

一个简单的HTML解析使用杰里科：

Source source = new Source("The HTML Text"); 
String parsedHTMLText = source.getTextExtractor().toString();