网页收获 - 刮一个网址
问题描述:
我正在使用网页收获。不过,我想从URL报废数据:网页收获 - 刮一个网址
我的代码是:
<?xml version="1.0" encoding="UTF-8"?>
<config>
<var-def name="google">
<html-to-xml>
<http url="http://derstandard.at/anzeiger/immoweb/Suchergebnis.aspx?Regionen=9&Bezirke=&Arten=&AngebotTyp=×tamp=1363305908912"></http>
</html-to-xml>
</var-def>
</config>
但是我得到:
参考实体Bezirke必须以';'结尾
我不明白web收获是什么意思,用';'?
答
我不知道太多关于网络的收获,但他们的榜样具有这样的:
<xpath expression="//a[@shape='rect']/@href">
<html-to-xml>
<http url="http://www.somesite.com/"/>
</html-to-xml>
</xpath>
<http url =".." />
而你的代码有
<http url = ".."></http>
也许这是你的问题?不需要结束标记
答
你应该在你的url中编码ampresands ie。每&
更换&
。
我不知道你如何去收获网络,但我会建议你使用Jsoup。这非常简单而实用。 – cwhsu 2013-03-15 00:23:33