您的位置: 首页 > 文章 > Python爬虫

Python爬虫

分类: 文章 • 2024-10-01 11:12:10

爬虫——按照一定的规则，自动获取网页信息

爬虫的基本原理——通用框架

选取种子URL
将这些URL放入待抓取的URL队列
取出待抓取的URL，下载并存储到已下载网页库中；此外，将这些URL放入已抓取URL队列中

爬虫的基本流程

向服务器发送请求，会得到对应的页面
解析页面，抽取我们要的信息，并将信息存储在指定的文档或数据库中