JSOUP HTML解析器

问题描述:

有没有办法让元/标签的开始行&列数结束行&列数JSOUP HTML解析器

我正在创建HTML编辑器,需要突出显示标记,以便根据某些情况给出的速度优化给定开始和结束行&列号

+1

我分叉Jsoup并跟踪源文档中所有元素的开始和结束位置。我没有列号和行号,但也许这可能是你的开始。你可以在这里找到代码(https://github.com/tvogels/jsoup)。 – Thijs

不,不幸的是,这是不可能在当前jsoup。

目前Jsoup在解析时没有跟踪行号/字符位置 ,所以无法提取它们。由于这不是 核心用例,我不想通过保留这些数据来扩展 DOM的内存需求。我曾想过在解析过程中可能会增加一个可选的旁通道方式来跟踪它,类似的方法是跟踪解析错误的方式,但还没有着重于 的实现。

来源:https://groups.google.com/forum/#!topic/jsoup/lnbYSIZApWw

相反,你可以尝试Jericho HTML Parser。在它的功能列表中,它表​​示:

源文档中每个位置的行号和列号是 ,可轻松访问。

查看javadoc here和调查方法,如getRow()getColumn()getRowColumnVector()

+0

是否有任何其他Java HTML分析器跟踪行号? – hiddenuser

+0

@ user2998596你看过[Jericho HTML Parser](http://jericho.htmlparser.net/docs/index.html)吗?在特征列表中说'源文档中每个位置的行号和列号很容易访问。'它具有诸如getRow(),getColumn()和getRowColumnVector()等方法。 – ashatte