您的位置: 首页 > 文章 > Python爬虫 Python爬虫 分类: 文章 • 2024-10-01 11:12:10 爬虫——按照一定的规则,自动获取网页信息 爬虫的基本原理——通用框架 选取种子URL 将这些URL放入待抓取的URL队列 取出待抓取的URL,下载并存储到已下载网页库中;此外,将这些URL放入已抓取URL队列中 爬虫的基本流程 向服务器发送请求,会得到对应的页面 解析页面,抽取我们要的信息,并将信息存储在指定的文档或数据库中