无法使用ImportXML获取数据

无法使用ImportXML获取数据

问题描述:

我试图在CraigsList中使用以下公式在Google Docs的电子表格中获取发布正文中的文本,但保留一条错误消息,指出“XPATH查询未返回任何内容数据。”无法使用ImportXML获取数据

我使用是式,

= IMPORTXML(D2, “//部分[@ ID = 'postingbody']”)

其中D2具有张贴网址:http://losangeles.craigslist.org/wst/apa/3608091461.html

我看了几个参考文献来检查我的公式,但我无法弄清楚什么是错的。任何帮助深表感谢。先进的谢谢! :)

试试这个Xpath表达:

//*[@id="postingbody"]/text() 
+0

嗯,仍然没有为我工作。我尝试用其他“div”和相应的id或class属性替换“section”,并且似乎工作得很好。只有当我在介绍“部分”的时候,这似乎失败了。想知道它是不是最新的HTML5的“部分”的引入... – user2060022 2013-02-12 04:46:29

这可能仅仅是Craigslist的阻止它,真的有严格与他们拼抢规则。

你可以尝试两件事情,你可能需要摆弄要提取或要如何格式化其中的一部分:

你可以试试:= REGEXEXTRACT(串连(IMPORTXML(A1,“/ 。/ HTML “)),” 避免诈骗( \ n *)不 “)

或尝试:= IMPORTXML(A1,”?// HTML“)

或最后:= importxml(A1,“// body”)