Python之爬虫学习记录簿(4)

提取页面信息还有更强大更方便的工具—解析库。
内容简略,仅供参考

解析库之XPath

1,XPath简介,详见官网:XPath概览,推荐pip安装pip install lxml
2,常用规则:

表达式 描述
nodename 选取此节点的所有子节点
/ 从当前节点选取直接子节点
// 从当前节点选取子孙节点
. 选取当前节点
. . 选取当前节点的父节点
@ 选取属性

3,运算符:
Python之爬虫学习记录簿(4)

图片来源:https://www.w3school.com.cn/xpath/xpath_operators.asp
4,其他:
(1)text()方法获取文本
(2)节点轴

轴名称 描述
attribute:: 获取符合条件节点的属性
ancestor:: 获取符合条件的祖先节点
child 获取符合条件的直接子节点
descendant 获取符合条件的子孙节点
following 获取当前节点的子节点
following-sibling 获取当前节点之后同级节点

5,实例代码地址:Github-xylover