您的位置: 首页 > 文章 > Python之爬虫学习记录簿（4）

Python之爬虫学习记录簿（4）

分类: 文章 • 2022-10-09 14:55:08

提取页面信息还有更强大更方便的工具—解析库。
内容简略，仅供参考

解析库之XPath

1，XPath简介，详见官网：XPath概览，推荐pip安装pip install lxml
2，常用规则：

表达式	描述
nodename	选取此节点的所有子节点
/	从当前节点选取直接子节点
//	从当前节点选取子孙节点
.	选取当前节点
. .	选取当前节点的父节点
@	选取属性

3，运算符：
Python之爬虫学习记录簿（4）

图片来源：https://www.w3school.com.cn/xpath/xpath_operators.asp
4，其他：
（1）text()方法获取文本
（2）节点轴

轴名称	描述
attribute::	获取符合条件节点的属性
ancestor::	获取符合条件的祖先节点
child	获取符合条件的直接子节点
descendant	获取符合条件的子孙节点
following	获取当前节点的子节点
following-sibling	获取当前节点之后同级节点

5，实例代码地址：Github-xylover