记一次爬虫小练习
0x01:目标是猫眼电影,对网页爬虫的基本步骤如下
0x02:点击我们目标的url,可以看到主url是http://maoyan.com/board/4,我们点击下一页,其url为http://maoyan.com/board/4?offset=10,可以发现只是多增加了一个offset偏移参数。继续分析我们要爬取的东西,我们主要是爬取这些电影的信
息,比如排名,链接,主演信息等,这个我们只需要构造合适的正则表达式将其合理的提取出来就可以。知道了我们的目标,我们进开始进行代码的编写。
0x03:
0x031:我们利用requests库对其页面进行提取,主要代码如下所示:
def get_one_page(url):
try:
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36 Edge/15.15063'
}
response=requests.get(url,headers=headers)
if response.status_code==200:
return response.text
else:
return None
except RequestException:
return None
0x032:然后的话就是将其抓取到的html页面进行解析,也就是利用正则提取到我们想要的信息
正则表达提取信息代码结构如下所示:
pattern=re.compile('正则表达式',re.S)
items=re.findall(pattern,html)
我们这个页面的正则表达式是这样的:
<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>.*?star.*?>(.*?)</p>.*?releasetime.*?>(.*?)</p>.*?integer.*?>(.*?)</i>.*?fraction.*?>(.*?)</i>.*?</dd>
0x033:然后的话就是将其获取的信息输入到我们的txt文件中,代码如下:
def write_to_file(content):
with open('result.txt','a')as f:
f.write(json.dumps(content,ensure_ascii=False).encode('utf-8')+"\n")
这里记得主要encoding='utf-8',将其转换成utf-8的格式.
0x04:我们梳理一下流程,将这些函数d代码整合起来如下:
#coding:utf-8
import requests
from requests.exceptions import RequestException
import re
import sys
import json
import time
#获取页面
def get_one_page(url):
try:
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36 Edge/15.15063'
}
response=requests.get(url,headers=headers)
if response.status_code==200:
return response.text
else:
return None
except RequestException:
return None
#正则提取
def parse_one_page(html):
#正则匹配
pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
+ '.*?>(.*?)<>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
+ '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
items=re.findall(pattern,html)
for item in items:
yield{
'index':item[0],
'image':item[1],
'title':item[2],
'actor':item[3].strip()[3:],
'time':item[4].strip()[5:],
'score':item[5]+item[6]
}
def write_to_file(content):
with open('result.txt','a')as f:
#print(type(json.dumps(content)))
f.write(json.dumps(content,ensure_ascii=False).encode('utf-8')+"\n")
def main(offset):
url='http://maoyan.com/board/4?offset='+str(offset)
html=get_one_page(url)
for item in parse_one_page(html):
print(item)
write_to_file(item)
if __name__=='__main__':
for i in range(10):
main(offset=i*10)
time.sleep(1)
这里主要需要注意这两句代码
time.sleep(1)
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36 Edge/15.15063'
}
为了应付反爬我们设置延迟和代理。