爬虫入门:XPATH

XPATH入门

标识符 作用
节点名 获取节点的所有子节点
@ 获取属性
/ 从根节点获取
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置
. 获取当前节点
获取当前节点的父节点

可以通过组合使用缩小搜索的范围

以下面的图片为例子:
爬虫入门:XPATH

元素节点:

元素==标签
strong
爬虫入门:XPATH

属性节点:

div标签中的
class=“cover-wp“
爬虫入门:XPATH

文本节点:

标签中间的内容
8.5
爬虫入门:XPATH

属性定位:

//div[@data-index =“0”]
//div[@class = “slide-page”]
爬虫入门:XPATH

层级定位:

//div [@class = “slide-page”]/a[@href = “https://movie.douban.com/subject/30252495/?tag=热门&from=gaia”]
爬虫入门:XPATH

索引定位:

//div [@data-index =“0”]/a[1]
//div [@class =“slider”]//a[@href = “https://movie.douban.com/subject/30252495/?tag=热门&from=gaia”]
爬虫入门:XPATH

逻辑运算:

//a[@class = “item” and @target = “_blank”]
可以用多个属性组合搜索
爬虫入门:XPATH

模糊匹配:

//a[contains(@target, “_bla”)]
所有的a标签,有target属性,并且属性中带有_bla的节点
//a[starts-with(@class, “i”)]
所有的a标签,有class属性,并且属性以i开头
爬虫入门:XPATH

取文本:

//div [@data-index =“0”]/a[1]/p/text()
//div [@data-index =“0”]//a/p/text()
获取文本内容
爬虫入门:XPATH

取属性:

//div [@data-index =“0”]/a[1]/@href
获取相关网址
爬虫入门:XPATH