无法使用ImportXML获取数据
问题描述:
我试图在CraigsList中使用以下公式在Google Docs的电子表格中获取发布正文中的文本,但保留一条错误消息,指出“XPATH查询未返回任何内容数据。”无法使用ImportXML获取数据
我使用是式,
= IMPORTXML(D2, “//部分[@ ID = 'postingbody']”)
其中D2具有张贴网址:http://losangeles.craigslist.org/wst/apa/3608091461.html
我看了几个参考文献来检查我的公式,但我无法弄清楚什么是错的。任何帮助深表感谢。先进的谢谢! :)
答
试试这个Xpath
表达:
//*[@id="postingbody"]/text()
答
这可能仅仅是Craigslist的阻止它,真的有严格与他们拼抢规则。
你可以尝试两件事情,你可能需要摆弄要提取或要如何格式化其中的一部分:
你可以试试:= REGEXEXTRACT(串连(IMPORTXML(A1,“/ 。/ HTML “)),” 避免诈骗( \ n *)不 “)
或尝试:= IMPORTXML(A1,”?// HTML“)
或最后:= importxml(A1,“// body”)
嗯,仍然没有为我工作。我尝试用其他“div”和相应的id或class属性替换“section”,并且似乎工作得很好。只有当我在介绍“部分”的时候,这似乎失败了。想知道它是不是最新的HTML5的“部分”的引入... – user2060022 2013-02-12 04:46:29