Python——论一只爬虫的自我修养2：实战

测试题：
0. urlopen() 方法的 timeout 参数用于设置什么？
1. 如何从 urlopen() 返回的对象中获取 HTTP 状态码？
2. 在客户端和服务器之间进行请求-响应时，最常用的是哪两种方法？
3. HTTP 是基于请求-响应的模式，那是客户端发出请求，服务端做出响应；还是服务端发出请求，客户端做出响应呢？
4. User-Agent 属性通常是记录什么信息？
5. 如何通过 urlopen() 使用 POST 方法像服务端发出请求？
6. 使用字符串的什么方法将其它编码转换为 Unicode 编码？
7. JSON 是什么鬼？
动动手：
0. 配合 EasyGui，给“下载一只猫“的代码增加互动：

让用户输入尺寸；
如果用户不输入尺寸，那么按默认宽400，高600下载喵；
让用户指定保存位置。

程序实现如下图：
Python——论一只爬虫的自我修养2：实战

1. 写一个登录豆瓣的客户端。
这道题可能要难为大家了，因为需要 N 多你没学过的知识！
不过我也不打算让你断送希望，下边是一个可行的 Python 2 的代码片段，请修改为 Python 3 版本。其中一些库和知识点你可能还没学过，但凭借着过人的自学能力，你可以在不看答案的情况下完成任务的，对吗？
程序实现如下图：

Python——论一只爬虫的自我修养2：实战

Python 2 实现代码：

# -- coding:gbk --
import re
import urllib, urllib2, cookielib
loginurl = 'https://www.douban.com/accounts/login'
cookie = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
params = {
"form_email":"your email",
"form_password":"your password",
"source":"index_nav" #没有的话登录不成功
}
#从首页提交登录
response=opener.open(loginurl, urllib.urlencode(params))
#验证成功跳转至登录页
if response.geturl() == "https://www.douban.com/accounts/login":
html=response.read()
#验证码图片地址
imgurl=re.search('<img id="captcha_image" src="(.+?)" alt="captcha" class="captcha_image"/>', html)
if imgurl:
url=imgurl.group(1)
#将图片保存至同目录下
res=urllib.urlretrieve(url, 'v.jpg')
#获取captcha-id参数
captcha=re.search('<input type="hidden" name="captcha-id" value="(.+?)"/>' ,html)
if captcha:
vcode=raw_input('请输入图片上的验证码：')
params["captcha-solution"] = vcode
params["captcha-id"] = captcha.group(1)
params["user_login"] = "登录"
#提交验证码验证
response=opener.open(loginurl, urllib.urlencode(params))
''' 登录成功跳转至首页 '''
if response.geturl() == "http://www.douban.com/":
print 'login success ! '

复制代码

图一时之快先看答案，您将失去一次锻炼的机会！
请先自己动手，再回复查看参考答案。
测试题答案：

0. urlopen() 方法的 timeout 参数用于设置什么？
答：timeout 参数用于设置连接的超时时间，单位是秒。
1. 如何从 urlopen() 返回的对象中获取 HTTP 状态码？
答：

…
response = urllib.request.urlopen(url)
code = response.getcode()
…

复制代码

2. 在客户端和服务器之间进行请求-响应时，最常用的是哪两种方法？
答：GET 和 POST。
3. HTTP 是基于请求-响应的模式，那是客户端发出请求，服务端做出响应；还是服务端发出请求，客户端做出响应呢？
答：发出请求的永远是客户端，做出响应的永远是服务端。
4. User-Agent 属性通常是记录什么信息？
答：普通浏览器会通过该内容向访问网站提供你所使用的浏览器类型、操作系统、浏览器内核等信息的标识。
5. 如何通过 urlopen() 使用 POST 方法像服务端发出请求？
答：urlopen 函数有一个 data 参数，如果给这个参数赋值，那么 HTTP 的请求就是使用 POST 方式；如果 data 的值是 NULL，也就是默认值，那么 HTTP 的请求就是使用 GET 方式。
6. 使用字符串的什么方法将其它编码转换为 Unicode 编码？
答：decode。decode 的作用是将其他编码的字符串转换成 unicode 编码，相反，encode 的作用是将 unicode 编码转换成其他编码的字符串。
7. JSON是什么鬼？
答：JSON 是一种轻量级的数据交换格式，说白了这里就是用字符串把 Python 的数据结构封装起来，便与存储和使用。

动动手答案：

0. 配合 EasyGui，给“下载一只猫“的代码增加互动。
代码清单：

import easygui as g
import urllib.request
def main():
msg = "请填写喵的尺寸"
title = "下载一只喵"
fieldNames = ["宽：", "高："]
fieldValues = []
size = width, height = 400, 600
fieldValues = g.multenterbox(msg, title, fieldNames, size)
while 1:
if fieldValues == None:
break
errmsg = ""
try:
width = int(fieldValues[0].strip())
except:
errmsg += "宽度必须为整数！"
try:
height = int(fieldValues[1].strip())
except:
errmsg += "高度必须为整数！"
if errmsg == "":
break
fieldValues = g.multenterbox(errmsg, title, fieldNames, fieldValues)
url = "http://placekitten.com/g/%d/%d" % (width, height)
response = urllib.request.urlopen(url)
cat_img = response.read()
filepath = g.diropenbox("请选择存放喵的文件夹")
if filepath:
filename = '%s/cat_%d_%d.jpg' % (filepath, width, height)
else:
filename = 'cat_%d_%d.jpg' % (width, height)
with open(filename, 'wb') as f:
f.write(cat_img)
if __name__ == "__main__":
main()

复制代码

1. 写一个登录豆瓣的客户端。
答：Python 3 对比 Python 2 有不少的改变。
在本题中：

urllib 和 urllib2 合并，大多数功能放入了 urllib.request 模块；
原来的 urllib.urlencode() 变为 urllib.parse.urlencode().encode()，由于编码的关系，你还需要在后边加上 encode('utf-8')；
cookielib 被改名为 http.cookiejar；

课堂中我们还没讲，所以这里借机会给大家简单科普一下 cookie 是什么东西：
我们说 HTTP 协议是基于请求响应模式，就是客户端发一个请求，服务端回复一个响应酱紫……
但 HTTP 协议是无状态的，也就是说客户端这会儿给服务端提交了账号密码，服务端回复验证通过，但下一秒客户端说我要访问 XXOO 资源，服务端回复：“啊？？你是谁？！”

Python——论一只爬虫的自我修养2：实战

为了解决这个尴尬的困境，有人就发明出了 cookie。cookie 相当于服务端（网站）用于验证你的身份的密文。于是客户端每次提交请求的时候，服务端通过验证 cookie 即可知道你的身份信息。那么正如你所猜测的，CookieJar 是 Python 用于存放 cookie 的对象。
当然，这里已经给你提供了 Python 2 的代码，你不懂上边这些，也不影响完成作业。

Python——论一只爬虫的自我修养2：实战

代码清单：

import re
import urllib.request
from http.cookiejar import CookieJar
# 豆瓣的登录url
loginurl = 'https://www.douban.com/accounts/login'
cookie = CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor)
data = {
"form_email":"your email",
"form_password":"your password",
"source":"index_nav"
}
data = {}
data['form_email'] = '你的账号'
data['form_password'] = '你的密码'
data['source'] = 'index_nav'
response = opener.open(loginurl, urllib.parse.urlencode(data).encode('utf-8'))
#验证成功跳转至登录页
if response.geturl() == "https://www.douban.com/accounts/login":
html = response.read().decode()
#验证码图片地址
imgurl = re.search('<img id="captcha_image" src="(.+?)" alt="captcha" class="captcha_image"/>', html)
if imgurl:
url = imgurl.group(1)
# 将验证码图片保存至同目录下
res = urllib.request.urlretrieve(url, 'v.jpg')
# 获取captcha-id参数
captcha = re.search('<input type="hidden" name="captcha-id" value="(.+?)"/>' ,html)
if captcha:
vcode = input('请输入图片上的验证码：')
data["captcha-solution"] = vcode
data["captcha-id"] = captcha.group(1)
data["user_login"] = "登录"
# 提交验证码验证
response = opener.open(loginurl, urllib.parse.urlencode(data).encode('utf-8'))
# 登录成功跳转至首页 '''
if response.geturl() == "http://www.douban.com/":
Print(‘登陆成功!’)

Python——论一只爬虫的自我修养2：实战

相关推荐