【爬虫】使用pyspider爬取壁纸

文章参考:

https://blog.****.net/wangjx92/article/details/78903288

 

这次爬取的是必应的每日壁纸

如何使用请看这里

   1.先分析一下Url:

    https://bing.ioliu.cn/?p=1

    发现只要更改p的参数就可以进入相应的页数。

【爬虫】使用pyspider爬取壁纸

    而且有多少页都已经标好了,微软真是贴心啊。

    2.接下来获取每个图片详情页的url。

【爬虫】使用pyspider爬取壁纸

    3.进入页面之后找到图片的地址然后下载下来。

【爬虫】使用pyspider爬取壁纸

 

4.以下是代码:

【爬虫】使用pyspider爬取壁纸

validate_cert确定是否验证证书,这个每个crawl()方法都要加不如就会出现以下问题

fetch_type开启phantomJS渲染。遇到JavaScript渲染的页面,指定此字段即可实现phantomJS的对接,pyspider将会使用phantomJS进行网页的抓取。

save可以在不同的方法之间传递参数。

真实图片链接后面有个“filter: blur(0px);”,查百度说是对图片的模糊处理。

window创建文件时文件名里不能有“/”,这里替换为空格。