天蛛爬虫学习笔记——盗亦有道

天蛛爬虫学习笔记——盗亦有道

爬虫应该遵循网络协议,有些网站中有Robots协议需要遵守,查看某个网站的Robots协议在对应的URL后加robots.txt,例如:https://www.****.net/robots.txt。
天蛛爬虫学习笔记——盗亦有道
User_agent:*,表示对所以的爬虫用户
Disallow:/scripts ,表示禁止爬取/根目录下的 scripts 目录

User_agent:EtaoSpider ,表示针对某个特定的爬虫程序
Disallow:/ ,禁止全区根目录下的所有文件

另外有些网站会设置反爬虫,连接成功但是获取不到信息