JSOUP HTML解析器
不,不幸的是,这是不可能在当前jsoup。
目前Jsoup在解析时没有跟踪行号/字符位置 ,所以无法提取它们。由于这不是 核心用例,我不想通过保留这些数据来扩展 DOM的内存需求。我曾想过在解析过程中可能会增加一个可选的旁通道方式来跟踪它,类似的方法是跟踪解析错误的方式,但还没有着重于 的实现。
来源:https://groups.google.com/forum/#!topic/jsoup/lnbYSIZApWw
相反,你可以尝试Jericho HTML Parser。在它的功能列表中,它表示:
源文档中每个位置的行号和列号是 ,可轻松访问。
查看javadoc here和调查方法,如getRow()
,getColumn()
和getRowColumnVector()
。
是否有任何其他Java HTML分析器跟踪行号? – hiddenuser
@ user2998596你看过[Jericho HTML Parser](http://jericho.htmlparser.net/docs/index.html)吗?在特征列表中说'源文档中每个位置的行号和列号很容易访问。'它具有诸如getRow(),getColumn()和getRowColumnVector()等方法。 – ashatte
我分叉Jsoup并跟踪源文档中所有元素的开始和结束位置。我没有列号和行号,但也许这可能是你的开始。你可以在这里找到代码(https://github.com/tvogels/jsoup)。 – Thijs