python爬虫第一个,爬取斗图啦,程序猿斗图从来没输过.

最近几天博客一直没有跟新,本人也对爬虫有深深的兴趣所以就花了一天时间,自学了一下,然后实战爬取斗图啦.
python爬虫第一个,爬取斗图啦,程序猿斗图从来没输过.
话不多说直接上码,相信小白也看的懂,

import requests
import re
import urllib.request
#定义目标网站url
url='http://www.doutula.com/photo/list/?page='
# #编写模拟浏览器获取
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
           'Accept':'text/html;q=0.9,*/*;q=0.8',
           'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
           'Accept-Encoding':'gzip',
           'Connection':'close',
           'Referer':None #注意如果依然不能抓取的话，这里可以设置抓取网站的host
}
#遍历获得目标网站的每一页
for i in range(1,101):
    urls=url+str(i)
    #用Request的get请求获取网页代码
    r = requests.get(urls,headers=headers)
    html=r.text
    # #用正则匹配获取图片链接
    zz=re.compile(r'data-original="(.*?)".*?alt="(.*?)"',re.S)
    img=re.findall(zz,html)
    #遍历得到图片名字和url
    for a in img:
        #设置保存路径
        path=('D:\爬虫\斗图啦\%s'%(a[1]))
        #用urllib库来进行保存
        urllib.request.urlretrieve(a[0],path)

爬取了100页吧
python爬虫第一个,爬取斗图啦,程序猿斗图从来没输过.

python爬虫第一个,爬取斗图啦,程序猿斗图从来没输过.

相关推荐