python爬取哔哩哔哩小视频
抓取B站每日的小视频排行榜,本周,本月采用同样方法。
网址:https://vc.bilibili.com/p/eden/rank#/?tab=全部
工具:python3,谷歌浏览器,pycharm
模块:requests,time,random
网页:
打开开发者工具,按F12。刷新网页,抓取数据。我们会抓取到红色部分的一条数据。
点击这条数据,先看一下头部(Headers)。
再看一下参数信息
很明显请求的url是由基本网址https://api.vc.bilibili.com/board/v1/ranking/top?
和参数拼接而成。
我们点击Preview,查看,发现是一个json数据,和我们爬取的视频一一对应关系。可以轻松获取文章标题,和下载数据。
我们很容易知道,该视频网站是动态加载的,我们继续往下滑动,看看是否还有这样的json数据,如果有,请求网址的参数有何变化。
果然还有这样的数据,我们再看一下头部的参数。
继续往下滑视频,
又发现了数据,观察参数变化,发现只有next_offset这个字段在变,每次都比前一个多10。这就好办了,把可变的next_offset写成变量,返回目标网页的json数据。
这就是完整的分析过程。下面是完整代码:
完整代码:
import requests
import time
import random
#获取网页原数据
def get_json(url):
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
params={
'page_size':'10',
'next_offset':str(num),
'tag':'今日热门',
'platform':'pc',
}
try:
html=requests.get(url,headers=headers,params=params)
return html.json()
except:
print("请求错误")
pass
#下载视频
def downloader(url,path):
start=time.time()#开始时间
size=0
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
response=requests.get(url,headers,stream=True)#stream属性必须带上
chunk_size=1024#每次下载的数据大小
content_size=int(response.headers['content-length'])#总大小
if response.status_code==200:
print('[文件大小]:%0.2fMB'%(content_size/chunk_size/1024))#换算单位
with open(path,'wb')as f:
for data in response.iter_content(chunk_size=chunk_size):
f.write(data)
size+=len(data)
if __name__ == '__main__':
for i in range(10):
url='http://api.vc.bilibili.com/board/v1/ranking/top?'
num=i*10+1
html=get_json(url)
infos=html['data']['items']
for info in infos:
title=info['item']['description']#小视频的标题
video_url=info['item']['video_playurl']#视频地址
print(title,video_url)
#为了防止视频没有video_url
try:
downloader(video_url,path="%s.mp4"%title)
print("成功下载一个")
except BaseException:
print("下载失败")
pass
time.sleep(int(format(random.randint(2,8))))#设置随机等待时间
如果想爬取每周,或每月的视频,只需更改参数params中的tag,把今日热门改成本周热门,本月热门即可。