XPATH在标签

问题描述:

`XPATH在标签

<item> 
<title>Lorem ipsum dolor sit ame</title> 
    ` `  
<description> 
&amp;#13; 
&amp;#13; 
&amp;#13;&lt;div class=&quot;videoInStoryC&quot;&gt;&amp;#13; 
&lt;div id=&quot;emp-19102206-25558&quot; class=&quot;emp&quot;&gt;&amp;#13; 
&lt;div class=&quot;warning&quot;&gt;&lt;img class=&quot;holding&quot; src=&quot;http://bac.com/asfg.jpg&quot; alt=&quot;ipsim dlor&quot; /&gt;&amp;#13; 
&lt;/div&gt;&amp;#13; &lt;/div&gt;&amp;#13; 
&amp;#13; 
&lt;p class=&quot;caption&quot;&gt;ipfi fks: &quot;Lorem ipsum dolor sit amel&quot;&lt;/p&gt;&amp;#13; 
&lt;/div&gt;&amp;#13; 
&amp;#13; 
</description> 
</item> 

`

编码的HTML我有一个RSS源与标签编码的HTML来了。我想在编码的HTML的IMG标记中提取URL源。 在这种情况下,UR1是http://bac.com/asfg.jpg。 我已经使用img/@ src但没有成功,我假定是因为编码的Html。 谢谢

你可以使用

parse-xml(replace(/item/description, "&#13;", ""))//img/@src 

,如果你有一个XPath 3.0解释(但你不知道)

,如果你的解释,您可以使用类似

filter(/item/description, 'src="([^"]*)"', 1) 

有一些像过滤器函数一样将正则表达式应用于字符串。 (但事实并非如此)

您可以使用

replace(replace(/item/description, '.*src="', '', 's'), '".*', '', 's') 

,如果你有文本的XPath 2.0解释只有一个图像