保留XML内容中的HTML标签SAX解析器Python
问题描述:
我正在使用python的xml.sax库来解析XML内容。我有HTML标签带有我的XML文件的一些标签。比方说,对于如:保留XML内容中的HTML标签SAX解析器Python
<Car>
<Color> Blue</Color>
<Size> 1500 </Size>
<Description><p>This is <b>new in the market</b></p></Description>
</Car>
那么我目前得到的是
Color : Blue
Size : 1500
Description : <
Description : p
Description : >
Description : This is
Description : <
Description : b
Description : >
Description : new in the market
.... and so on.
我要的是它返回什么:
Description - <p>This is <b>new in the market</p>
该文件是非常大的,所以我手动CANT有CDATA里的HTML标签 此外我需要显示文件中的所有内容,有没有办法克服这个问题?
答
保持您在进入“描述”节点时所设置的状态变量,并按下该键来处理内部标记。当你离开时清除状态。
+0
我会尝试一下,让你知道,我也想到了另一种可能正常工作的解决方案。一个问题是我不知道有多少XML标签内部具有HTML内容,所以这不仅仅是Description Tag的情况 –
感谢@falsetru进行编辑 –