XPATH在标签
问题描述:
<item>
<title>Lorem ipsum dolor sit ame</title>
` `
<description>
&#13;
&#13;
&#13;<div class="videoInStoryC">&#13;
<div id="emp-19102206-25558" class="emp">&#13;
<div class="warning"><img class="holding" src="http://bac.com/asfg.jpg" alt="ipsim dlor" />&#13;
</div>&#13; </div>&#13;
&#13;
<p class="caption">ipfi fks: "Lorem ipsum dolor sit amel"</p>&#13;
</div>&#13;
&#13;
</description>
</item>
`
编码的HTML我有一个RSS源与标签编码的HTML来了。我想在编码的HTML的IMG标记中提取URL源。 在这种情况下,UR1是http://bac.com/asfg.jpg。 我已经使用img/@ src但没有成功,我假定是因为编码的Html。 谢谢
答
你可以使用
parse-xml(replace(/item/description, " ", ""))//img/@src
,如果你有一个XPath 3.0解释(但你不知道)
,如果你的解释,您可以使用类似
filter(/item/description, 'src="([^"]*)"', 1)
有一些像过滤器函数一样将正则表达式应用于字符串。 (但事实并非如此)
您可以使用
replace(replace(/item/description, '.*src="', '', 's'), '".*', '', 's')
,如果你有文本的XPath 2.0解释只有一个图像