解析HTML文档并替换整个标签片段的最佳方法

问题描述:

我正试图从上到下找到解析HTML文档的最佳方法,并用 替换某些不同的标签组并创建更新的文件。 我更喜欢使用Java,VB.NET或PHP。解析HTML文档并替换整个标签片段的最佳方法

有几个类,如JSoup,杰里科等,这似乎是很好的替换特定的标签,但我想要做的是取代/重写整个段。

例如,我可能正在寻找一个表,如。

<table><tr><th>A header</th></tr><tr><td>Some text</td></tr><tr><td>More text</td></tr></table> 

,我想用

<div class="header">A header</div><p>Some text. More text</p> 

但是替换此,要离开这个HTML文件相同的其余部分。

任何人都这样做?什么是最简单的方法?你能推荐一个好的HTML解析器来使用吗?

我解析的文档是XHTML,所以我已经考虑使用java DOM或SAX工具,但是,我发现这些工作非常繁琐,并且想知道是否有更好的方法来处理它,以及一些现有的类。

非常感谢任何帮助。

是的,你需要一个html解析器来轻松正确地解析html。您可以使用

jsoup: Java HTML Parser

jsoup是一个Java库与现实世界的HTML工作。它为 提供了一个非常方便的API,用于提取和操作数据,使用DOM的最好的 。

这很简单,只要这种使用汤解析HTML:

String html = "<table><tr><th>A header</th></tr><tr><td>Some text</td></tr><tr><td>More text</td></tr></table>"; 
Document doc = Jsoup.parse(html); 
+0

是的,我看了一下Jsoup,但正如我所说,似乎面向面对变化的特定的标签,但我发现没有替换一段标签的例子。以一张表为例,你可能不知道它包含多少行。或者也许没有任何好的例子?在我的例子中,你将如何使用Jsoup来完成结果? – 2014-10-03 01:54:00