一个超级简单的入门级别图片爬虫:爬取morning.rocks网站上的书签计划和软科普计划的图片
愿你也热爱未知,比如宇宙和清晨。
Morning Rocks 是一本小众的,安静的,展示未知之美的线上杂志,这里只有一个撰稿人。
希望你不再惧怕黑夜,相信可以重燃希望在清早,知道抬头看哪怕全然黑暗处,其实也有亿万隐没的星光。
这是网站 http://morning.rocks/ 有好多好多好好看的图片,都是炒鸡喜欢的星玫姐姐制作的。
先放其中一张图
一张张下载下来还是很累人的,所以就写个简单的图片爬虫。这个网页还是非常简单的,非常适合小白新手练手学习使用。真的非常简单仅有十几行代码,写这个博客更重要推一下我最喜欢的一个公众号morningrocks
软科普计划网址 http://morning.rocks/?cat=21
100张书签计划 http://morning.rocks/?cat=14
import requests
from bs4 import BeautifulSoup
import re
#获取、解析网页
r = requests.get("http://morning.rocks/?cat=14")
soup = BeautifulSoup(r.text,features='lxml')
s = soup.find_all("a",{"href":re.compile(".*?\.png")})
m = 0 #这是用来给图片起名的
for i in s:
link = i['href']
m += 1
r = requests.get(link)
filename='100张书签计划第{}张.png'.format(m)
#写入图片
with open(filename,'wb') as f:
f.write(r.content)
爬取的图片来自一位安静发光的撰稿人
哈哈哈哈哈哈哈哈这是我最喜欢的公众号了,强推一波:
微信搜索 morningrocks