网页收获 - 刮一个网址

问题描述：

我正在使用网页收获。不过，我想从URL报废数据：网页收获 - 刮一个网址

http://derstandard.at/anzeiger/immoweb/Suchergebnis.aspx?Regionen=9&Bezirke=&Arten=&AngebotTyp=&timestamp=1363305908912

我的代码是：

<?xml version="1.0" encoding="UTF-8"?> 

<config> 
    <var-def name="google"> 
    <html-to-xml> 
    <http url="http://derstandard.at/anzeiger/immoweb/Suchergebnis.aspx?Regionen=9&Bezirke=&Arten=&AngebotTyp=&timestamp=1363305908912"></http> 
    </html-to-xml> 
    </var-def> 
</config>

但是我得到：

参考实体Bezirke必须以';'结尾

我不明白web收获是什么意思，用';'？

我不知道你如何去收获网络，但我会建议你使用Jsoup。这非常简单而实用。 – cwhsu 2013-03-15 00:23:33

答

我不知道太多关于网络的收获，但他们的榜样具有这样的：

<xpath expression="//a[@shape='rect']/@href"> 
    <html-to-xml> 
     <http url="http://www.somesite.com/"/> 
    </html-to-xml> 
</xpath> 

<http url =".." />

而你的代码有

<http url = ".."></http>

也许这是你的问题？不需要结束标记

答

你应该在你的url中编码ampresands ie。每&更换&。

网页收获 - 刮一个网址

相关推荐