解析POI中的HTML内容
问题描述:
我正在使用POI来创建电子表格报告,我有html内容与<p>
,<b/>
,
等,我如何解析这些html标签在POI? POI中有没有可以解析html内容的函数?解析POI中的HTML内容
这是我的POI代码示例:
HSSFCell cell = getHSSFCell(mysheet, 5, 1);
cell.setCellValue(new HSSFRichTextString(htmlContent));
预先感谢您。
答
POI不适用于HTML,适用于MS Office。你想使用的是你的HTML解析部分的Xpath。 XPath是它自己的兔子洞,所以我不会去到它的细节很多,但这里有一些资源,对Java的XPath:
答
其中一个简单的解决方案是使用HTML解析器解析HTML内容,然后使用POI设置文本。我使用了Jericho HTML Parser。 http://jericho.htmlparser.net/docs/index.html
一个简单的HTML解析使用杰里科:
Source source = new Source("The HTML Text");
String parsedHTMLText = source.getTextExtractor().toString();