JSOUP HTML解析器

问题描述：

有没有办法让元/标签的开始行&列数和结束行&列数？JSOUP HTML解析器

我正在创建HTML编辑器，需要突出显示标记，以便根据某些情况给出的速度优化给定开始和结束行&列号。

我分叉Jsoup并跟踪源文档中所有元素的开始和结束位置。我没有列号和行号，但也许这可能是你的开始。你可以在这里找到代码（https://github.com/tvogels/jsoup）。 – Thijs

答

不，不幸的是，这是不可能在当前jsoup。

目前Jsoup在解析时没有跟踪行号/字符位置，所以无法提取它们。由于这不是核心用例，我不想通过保留这些数据来扩展 DOM的内存需求。我曾想过在解析过程中可能会增加一个可选的旁通道方式来跟踪它，类似的方法是跟踪解析错误的方式，但还没有着重于的实现。

来源：https://groups.google.com/forum/#!topic/jsoup/lnbYSIZApWw

相反，你可以尝试Jericho HTML Parser。在它的功能列表中，它表示：

源文档中每个位置的行号和列号是，可轻松访问。

查看javadoc here和调查方法，如getRow()，getColumn()和getRowColumnVector()。

是否有任何其他Java HTML分析器跟踪行号？ – hiddenuser

@ user2998596你看过[Jericho HTML Parser]（http://jericho.htmlparser.net/docs/index.html）吗？在特征列表中说'源文档中每个位置的行号和列号很容易访问。'它具有诸如getRow（），getColumn（）和getRowColumnVector（）等方法。 – ashatte

相关推荐