如何使用Scrapy设置proxymesh?
问题描述:
我有一些Scrapy代码,我想开始使用proxymesh。该proxymesh documentation隐晦地说:如何使用Scrapy设置proxymesh?
对于scrapy爬行框架,你必须设置HTTP_PROXY 环境变量[...]然后activate的HttpProxyMiddleware。
我明白如何设置http_proxy
环境变量,但是如何“激活HttpProxyMiddleware”在文档中并不完全明显。我想我需要以下添加到settings.py
在我的Scrapy项目:
DOWNLOADER_MIDDLEWARES = {
'myproject.middleware.ProxyMeshMiddleware': 100,
}
但后来我相信我还需要添加一些实际的中间件代码,大概在middleware.py
文件?
我发现this gist,所以我想我可以复制并粘贴到middleware.py
,但我不确定它是否准确。它似乎使用了proxymesh文档中推荐的不同环境变量。
答
要旨你是指读取操作系统环境变量ProxyMesh设置,基本Scrapy的,否则它是稍微修改代码HttpProxyMiddleware和应该效果很好。
你也可以看看我的非常简单的实现Proxymesh中间件https://github.com/mizhgun/scrapy-proxymesh支持代理轮换(如果你有ProxyMesh计划与多个端点)和可定制的超时。
谢谢!我也看到了您的库,但我不确定如何开始使用它,除了按照自述文件中所述编辑设置文件。是否只是将'scproxymesh'目录复制到我的项目中? – Richard
您可以来源复制到您的项目或使用PIP画中画'安装-e git的安装+ https://开头github.com/mizhgun/scrapy-proxymesh @主站#蛋= scproxymesh' – mizhgun
UPD:上传到PyPI中,现在可以通过'pip install scrapy-proxymesh'安装。 – mizhgun