怎样伪装自己的爬虫?

爬取网页被拒?看这里,要学会包装自己家的爬虫

1.方法一:进行ip代理中间件的编写

这种方法呢,需要首先购买一个代理IP,可以去阿布云进行购买,这里并不推荐

2.方法二:进行user_agent中间件的编写(能白漂,难道它不香吗)

(1)打开middlewares.py编写如下

怎样伪装自己的爬虫?

(2)这里强调一下USER_AGENT_LIST列表可以到百度上搜一个,这里我们用的是一个360的USER_AGENT

其他照着编写即可

(3)接下来编写setting.py文件如下

怎样伪装自己的爬虫?

这里需要注意的是47行和49行的代码需要运行,必须把前面的#删去打开,为辨认优先级关系,需要把49行

的543改为544

(4)最后到main.py中运行即可

怎样伪装自己的爬虫?