1.准备工作:
Python的安装:
到官方网站下载:https://www.python.org/
![Python实践-简单的爬取图片 Python实践-简单的爬取图片](/default/index/img?u=aHR0cHM6Ly9waWFuc2hlbi5jb20vaW1hZ2VzLzI5Ny8zZjVmZmY0MDFkYzVjMzhmZTI0NjNkYTM4NDE5YThmMS5wbmc=)
下载后,安装,配置环境变量,之后检查安装是否成功:win+r,输入cmd,再敲命令python,出现如下情况,说明安装成功
![Python实践-简单的爬取图片 Python实践-简单的爬取图片](/default/index/img?u=aHR0cHM6Ly9waWFuc2hlbi5jb20vaW1hZ2VzLzgxLzA0YzA3ZmQzZWVlMmZlYjQyZmQwMzdkNjM4MzQwOGE5LnBuZw==)
Python开发工具Pycharm:
下载地址:https://www.jetbrains.com/pycharm/
2.开始爬虫
今天我们来爬取图片,有的人可能会问为什么要爬取图片呢,我可以直接下载啊,一张、两张是可以手动下载,如果成千上万张,手动下载就太浪费时间了,如果你有的是时间,那当我没说。
爬取的网站:https://www.vmgirls.com/12985.html
首先,下载requests库:Requests 是Python 的一个HTTP 客户端库
下载命令:pip install requests
![Python实践-简单的爬取图片 Python实践-简单的爬取图片](/default/index/img?u=aHR0cHM6Ly9waWFuc2hlbi5jb20vaW1hZ2VzLzc4Ni8wNTRhMWRjMzA4YWMxZjgzZDM0ZDI4NGM2MmIwYWVlYS5wbmc=)
一般网站是会设置反爬虫的,如下:
![Python实践-简单的爬取图片 Python实践-简单的爬取图片](/default/index/img?u=aHR0cHM6Ly9waWFuc2hlbi5jb20vaW1hZ2VzLzI5Ny8zNDA1YTEwZmMwNWY1MGEwOGU0ZTlmYmUxZjJlZmJlMS5wbmc=)
你都告诉它你的代理是:'User-Agent': 'python-requests/2.24.0',所以这里自定义一下。
这里需要修改一下:
![Python实践-简单的爬取图片 Python实践-简单的爬取图片](/default/index/img?u=aHR0cHM6Ly9waWFuc2hlbi5jb20vaW1hZ2VzLzY4MS8xMGI1NDViZmZhOGU2NjViNzIwYjFiNzc1MTYxM2YzOS5wbmc=)
完整代码如下:
"""请求网页""" import time import os import requests import re
header = { 'User-Agent': 'allen' } #自己的身份 response = requests.get('https://www.vmgirls.com/12985.html',headers=header) #print(response.request.headers)
#print(response.text) html = response.text
"""解析网页"""
#注意这里,不同的网页url不同 urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html) #print(urls)
"""保存图片""" #自定义目录,如果不自定义目录,默认目录是跟你的.py代码同层级的目录
path = 'D:\CCB\python'
#这里的[-1]是倒数第一个的意思 dir_name = re.findall('<h1 class="post-title h3">(.*?)</h1>',html)[-1] if not os.path.exists(path + dir_name):
os.mkdir(path + dir_name) for url in urls:
time.sleep(1)
#图片的名字
file_name = url.split('/')[-1]
response = requests.get(url,headers=header)
with open(path+'/'+ dir_name + '/' + file_name,'wb') as f:
f.write(response.content)
|
查看结果:
我这是是默认的目录,你可以使用我代码中的自定义目录
在pycharm工具下也能看到:
![Python实践-简单的爬取图片 Python实践-简单的爬取图片](/default/index/img?u=aHR0cHM6Ly9waWFuc2hlbi5jb20vaW1hZ2VzLzE0Mi8zYzM4MDQwNTI2MDhhMjk5ZWFlY2VkNjdjMGFhMDQ0Ni5wbmc=)