保留XML内容中的HTML标签SAX解析器Python

问题描述:

我正在使用python的xml.sax库来解析XML内容。我有HTML标签带有我的XML文件的一些标签。比方说,对于如:保留XML内容中的HTML标签SAX解析器Python

<Car> 
<Color> Blue</Color> 
<Size> 1500 </Size> 
<Description><p>This is <b>new in the market</b></p></Description> 
</Car> 

那么我目前得到的是

Color : Blue 
Size : 1500 
Description : < 
Description : p 
Description : > 
Description : This is 
Description : < 
Description : b 
Description : > 
Description : new in the market 
.... and so on. 

我要的是它返回什么:

Description - <p>This is <b>new in the market</p> 

该文件是非常大的,所以我手动CANT有CDATA里的HTML标签 此外我需要显示文件中的所有内容,有没有办法克服这个问题?

+0

感谢@falsetru进行编辑 –

保持您在进入“描述”节点时所设置的状态变量,并按下该键来处理内部标记。当你离开时清除状态。

+0

我会尝试一下,让你知道,我也想到了另一种可能正常工作的解决方案。一个问题是我不知道有多少XML标签内部具有HTML内容,所以这不仅仅是Description Tag的情况 –