解析格式错误的HTML内容

问题描述:

我知道,格式不正确的XML内容无效,您不应该使用它 - 但我没有其他机会。我想分析一个服务的网站,并有一个失踪的结束标签。 我使用在Android的XMLPullParser,我得到这个异常:解析格式错误的HTML内容

XmlPullParserException: expected: /div read: a (position:END_TAG </a>@40:104) 

问题是这样的部分:

<div id="header_right"> 
<img src="/templates/stw_green_wide/images/header.png" width="800px" height="92px" alt="" /></a> 
</div> 

我不想如果不是真的需要使用第三方库。

问候和新年快乐!

尝试在解析器上设置“RELAXED FEATURE”。它会更宽松。请参阅文档:

http://developer.android.com/reference/android/util/Xml.html#FEATURE_RELAXED 

但是...我还注意到您试图用该XML解析器解析HTML。您将遇到问题,因为HTML不是XML,许多网站不使用xhtml。如果你使用HTML Parser,你会为自己创造更少的麻烦。我没有使用过这个,但是我听说它在Android上运行得非常好。我确信还有其他一些你可以通过一些googlology找到的。但我强烈建议你使用HTML解析器来解析HTML :)

http://jsoup.org/