使用Perl解析错误的RSS提要
问题描述:
我希望能够解析包含 无效XML的RSS和Atom提要。我遇到的错误以及想要修复 的错误包括诸如>
之类的“简单”错误,其中;
为 缺失,缺少结束标记并且结尾标记出现在 错误的顺序中。使用Perl解析错误的RSS提要
我想忽略这个问题,理论上它是否使得任何 有意义尝试解析格式不正确的XML文档。一个 “技术”一词似乎与我想要做的 相当接近是“标签汤”。我应该使用哪些现有的CPAN模块来构建能够容忍或更正上述那些简单错误(例如 )的解析器?
答
recover
标志为LibXML,如果您确实需要的话,或者XML-Liberal如果您真的想在解析任何旧垃圾时过度使用。
我相信你会忽略解析非格式良好的文档是否有意义,但忽略它不会让它消失。大多数RSS工具将完全拒绝任何非格式良好的XML输入;你通常应该效仿,除非你的工具像RSS调试器那样不寻常。
“标签汤”是与HTML解析特别相关的术语。 XML(以及RSS和Atom)的核心思想之一就是没有这种东西。