网页收获 - 刮一个网址

问题描述:

我正在使用网页收获。不过,我想从URL报废数据:网页收获 - 刮一个网址

http://derstandard.at/anzeiger/immoweb/Suchergebnis.aspx?Regionen=9&Bezirke=&Arten=&AngebotTyp=&timestamp=1363305908912

我的代码是:

<?xml version="1.0" encoding="UTF-8"?> 

<config> 
    <var-def name="google"> 
    <html-to-xml> 
    <http url="http://derstandard.at/anzeiger/immoweb/Suchergebnis.aspx?Regionen=9&Bezirke=&Arten=&AngebotTyp=&timestamp=1363305908912"></http> 
    </html-to-xml> 
    </var-def> 
</config> 

但是我得到:

参考实体Bezirke必须以';'结尾

我不明白web收获是什么意思,用';'?

+1

我不知道你如何去收获网络,但我会建议你使用Jsoup。这非常简单而实用。 – cwhsu 2013-03-15 00:23:33

我不知道太多关于网络的收获,但他们的榜样具有这样的:

<xpath expression="//a[@shape='rect']/@href"> 
    <html-to-xml> 
     <http url="http://www.somesite.com/"/> 
    </html-to-xml> 
</xpath> 

<http url =".." /> 

而你的代码有

<http url = ".."></http> 

也许这是你的问题?不需要结束标记

你应该在你的url中编码ampresands ie。每&更换&amp;