爬虫： url的自动补全

分类: 文章 • 2024-08-27 14:54:58

正常的url是有前缀 https://note.youdao.com 的，而有些a标签的url只有path路径，要实现自动拼接有两种办法：
1、需要先提取a标签中的部分url以后才能使用urljoin()
爬虫： url的自动补全
2、不需要提取a标签中的部分，LinkExtractor会自动提取并且补全url
from scrapy.linkextractors import LinkExtractor
获取某个a标签的url的时候正则到上一标签就可以了，不仅获取到url并且拼接好，还能获取到a标签text的内容。
爬虫： url的自动补全