Python实践-简单的爬取图片

1.准备工作:

Python的安装:

到官方网站下载:https://www.python.org/

Python实践-简单的爬取图片

下载后,安装,配置环境变量,之后检查安装是否成功:win+r,输入cmd,再敲命令python,出现如下情况,说明安装成功

Python实践-简单的爬取图片

Python开发工具Pycharm:

下载地址:https://www.jetbrains.com/pycharm/

2.开始爬虫

今天我们来爬取图片,有的人可能会问为什么要爬取图片呢,我可以直接下载啊,一张、两张是可以手动下载,如果成千上万张,手动下载就太浪费时间了,如果你有的是时间,那当我没说。

爬取的网站:https://www.vmgirls.com/12985.html

首先,下载requests库:Requests Python 的一个HTTP 客户端库

下载命令:pip install requests

Python实践-简单的爬取图片

一般网站是会设置反爬虫的,如下:

Python实践-简单的爬取图片

你都告诉它你的代理是:'User-Agent': 'python-requests/2.24.0',所以这里自定义一下。

这里需要修改一下:

Python实践-简单的爬取图片

完整代码如下:

"""请求网页"""
import time
import os
import requests
import re
header = {

'User-Agent': 'allen'
}
#自己的身份
response = requests.get('https://www.vmgirls.com/12985.html',headers=header)
#print(response.request.headers)
#print(response.text)

html = response.text

"""解析网页"""

#注意这里,不同的网页url不同
urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html)
#print(urls)

"""保存图片"""
#自定义目录,如果不自定义目录,默认目录是跟你的.py代码同层级的目录

path = 'D:\CCB\python'

#这里的[-1]是倒数第一个的意思
dir_name = re.findall('<h1 class="post-title h3">(.*?)</h1>',html)[-1]
if not os.path.exists(path + dir_name):
    os.mkdir(path + dir_name)

for url in urls:
    time.sleep(
1)
   
#图片的名字
   
file_name = url.split('/')[-1]
    response = requests.get(url
,headers=header)
   
with open(path+'/'+ dir_name + '/' + file_name,'wb') as f:
        f.write(response.content)

查看结果:

我这是是默认的目录,你可以使用我代码中的自定义目录

在pycharm工具下也能看到:

Python实践-简单的爬取图片