网络爬虫 Robots协议

Robots协议

Robots Exclusion Standard 网络爬虫排除标准

作用:告知网络爬虫哪些可以爬取,哪些不可以

形式:在网站根目录下的robots.txt文件


例如京东的网站:

网络爬虫 Robots协议


Robots协议基本语法:

#注释  *代表所有  \代表根目录

User-agent: *

Disallow: /


Robots协议的使用

网络爬虫:自动或人工的识别robots.txt,在进行内容爬取

约束性:Robots协议是建议但非约束性,网络爬虫可不遵守,但有法律风险