Robots协议
作用
网站告诉爬虫哪些可以爬取,哪些不能爬取。
https://www.jd.com/robots.txt
User-agent: 对于任意的网络爬虫来源,它定义为User-agent
Disallow: ? 任何爬虫哪个都不允许访问以问号开头的文件
*代表所有/代表目录
网站告诉爬虫哪些可以爬取,哪些不能爬取。
https://www.jd.com/robots.txt
User-agent: 对于任意的网络爬虫来源,它定义为User-agent
Disallow: ? 任何爬虫哪个都不允许访问以问号开头的文件
*代表所有/代表目录