Python实践-简单的爬取图片

1.准备工作：

Python的安装：

到官方网站下载：https://www.python.org/

Python实践-简单的爬取图片

下载后，安装，配置环境变量，之后检查安装是否成功：win+r，输入cmd，再敲命令python，出现如下情况，说明安装成功

Python实践-简单的爬取图片

Python开发工具Pycharm：

下载地址：https://www.jetbrains.com/pycharm/

2.开始爬虫

今天我们来爬取图片，有的人可能会问为什么要爬取图片呢，我可以直接下载啊，一张、两张是可以手动下载，如果成千上万张，手动下载就太浪费时间了，如果你有的是时间，那当我没说。

爬取的网站：https://www.vmgirls.com/12985.html

首先，下载requests库：Requests 是Python 的一个HTTP 客户端库

下载命令：pip install requests

Python实践-简单的爬取图片

一般网站是会设置反爬虫的，如下：

Python实践-简单的爬取图片

你都告诉它你的代理是：'User-Agent': 'python-requests/2.24.0'，所以这里自定义一下。

这里需要修改一下：

Python实践-简单的爬取图片

完整代码如下：

"""请求网页"""
import time
import os
import requests
import re
header = {
'User-Agent': 'allen'
}
#自己的身份
response = requests.get('https://www.vmgirls.com/12985.html',headers=header)
#print(response.request.headers)
#print(response.text)
html = response.text

"""解析网页"""

#注意这里，不同的网页url不同
urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html)
#print(urls)

"""保存图片"""
#自定义目录，如果不自定义目录，默认目录是跟你的.py代码同层级的目录

path = 'D:\CCB\python'

#这里的[-1]是倒数第一个的意思
dir_name = re.findall('<h1 class="post-title h3">(.*?)</h1>',html)[-1]
if not os.path.exists(path + dir_name):
    os.mkdir(path + dir_name)
for url in urls:
    time.sleep(1)
    #图片的名字
    file_name = url.split('/')[-1]
    response = requests.get(url,headers=header)
    with open(path+'/'+ dir_name + '/' + file_name,'wb') as f:
        f.write(response.content)

查看结果：

我这是是默认的目录，你可以使用我代码中的自定义目录

在pycharm工具下也能看到：

Python实践-简单的爬取图片

Python实践-简单的爬取图片

相关推荐