从html页面中提取元素的最佳方式?
问题描述:
在Java中从HTML页面中提取元素的首选方法是什么?从html页面中提取元素的最佳方式?
我的HTML是有许多如下行:
<tr class="item-odd">
<td class="data"><a href="http://.....">TITLE</a></td>
<td><div class="cost">$1.99</div></td>
</tr>
类交替item-odd
和item-even.
我需要提取:
- 网址
- 标题
- 价格
正则表达式的路要走吗?
答
我会使用这个工作的图书馆,如HTML Parser。看看samples和/或javadoc。另请参阅SO上的previous questions。
HTML Parser很容易使用,应该做的工作。对于替代品,请看这previous answer。
不,不是正则表达式。 http://*.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – 2010-01-06 22:54:09
根据你的用户活动页面,你问了不少于24个问题在过去的24小时内。你有没有想过或许只是偶尔回答一个问题而已? – 2010-01-06 22:59:27
是的,我已经考虑过了。 – mrblah 2010-01-06 23:08:57