爬虫第1周——Robots协议
爬取网页的规模:
小规模,数据量小,爬取速度不敏感——Requests库
中规模,数据规模较大,爬取速度敏感——Scrapy库
大规模,搜索引擎,爬取速度关键—— 定制开发
网络爬虫引发的问题: 性能骚扰、 法律风险、隐私泄露
爬取网页的规模:
小规模,数据量小,爬取速度不敏感——Requests库
中规模,数据规模较大,爬取速度敏感——Scrapy库
大规模,搜索引擎,爬取速度关键—— 定制开发
网络爬虫引发的问题: 性能骚扰、 法律风险、隐私泄露