使用Jsoup HTML解析器解析注释标记

问题描述:

我正在使用基本解析器程序解析简单HTML文档。使用Jsoup HTML解析器解析注释标记

Document doc = Jsoup.parse(responseFromServer); 

Element content = doc.getElementById("content"); 
Elements links = content.getElementsByTag("a"); 
String linkText = null; 
for (Element link : links) {  
    linkText = link.text(); 
} 

某些标签被注释掉。我也想解析评论中的这些标签。由于我无法访问HTML输出源,因此我无法编辑文件并删除评论。

我该如何解析评论标签?

默认情况下,Jsoup忽略注释。为了解析它们,您可以在解析之前转换html字符串。沿线的东西

htmlStr = htmlStr.replaceAll("<!--|-->",""); 
document doc = Jsoup.parser(htmlStr); 

这只会工作没有问题,如果注释掉的HTML是真的多多少少有效的HTML。如果它只是文本,你可能需要改变它的不同。