python爬取哔哩哔哩小视频

抓取B站每日的小视频排行榜,本周,本月采用同样方法。

网址:https://vc.bilibili.com/p/eden/rank#/?tab=全部
工具:python3,谷歌浏览器,pycharm
模块:requests,time,random

网页:
python爬取哔哩哔哩小视频
打开开发者工具,按F12。刷新网页,抓取数据。我们会抓取到红色部分的一条数据。
点击这条数据,先看一下头部(Headers)。
python爬取哔哩哔哩小视频

python爬取哔哩哔哩小视频
再看一下参数信息
python爬取哔哩哔哩小视频
很明显请求的url是由基本网址https://api.vc.bilibili.com/board/v1/ranking/top?和参数拼接而成。
我们点击Preview,查看,发现是一个json数据,和我们爬取的视频一一对应关系。可以轻松获取文章标题,和下载数据。
python爬取哔哩哔哩小视频
我们很容易知道,该视频网站是动态加载的,我们继续往下滑动,看看是否还有这样的json数据,如果有,请求网址的参数有何变化。
python爬取哔哩哔哩小视频
果然还有这样的数据,我们再看一下头部的参数。
python爬取哔哩哔哩小视频
继续往下滑视频,
python爬取哔哩哔哩小视频
又发现了数据,观察参数变化,发现只有next_offset这个字段在变,每次都比前一个多10。这就好办了,把可变的next_offset写成变量,返回目标网页的json数据。

这就是完整的分析过程。下面是完整代码:
完整代码:

import requests
import time
import random

#获取网页原数据
def get_json(url):
    headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
    params={
        'page_size':'10',
        'next_offset':str(num),
        'tag':'今日热门',
        'platform':'pc',
    }
    try:
        html=requests.get(url,headers=headers,params=params)
        return html.json()
    except:
        print("请求错误")
        pass

#下载视频
def downloader(url,path):
    start=time.time()#开始时间
    size=0
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
    response=requests.get(url,headers,stream=True)#stream属性必须带上
    chunk_size=1024#每次下载的数据大小
    content_size=int(response.headers['content-length'])#总大小
    if response.status_code==200:
        print('[文件大小]:%0.2fMB'%(content_size/chunk_size/1024))#换算单位
        with open(path,'wb')as f:
            for data in response.iter_content(chunk_size=chunk_size):
                f.write(data)
                size+=len(data)





if __name__ == '__main__':
    for i in range(10):
        url='http://api.vc.bilibili.com/board/v1/ranking/top?'
        num=i*10+1
        html=get_json(url)
        infos=html['data']['items']
        for info in infos:
            title=info['item']['description']#小视频的标题
            video_url=info['item']['video_playurl']#视频地址
            print(title,video_url)
            #为了防止视频没有video_url
            try:
                downloader(video_url,path="%s.mp4"%title)
                print("成功下载一个")
            except BaseException:
                print("下载失败")
                pass
        time.sleep(int(format(random.randint(2,8))))#设置随机等待时间



如果想爬取每周,或每月的视频,只需更改参数params中的tag,把今日热门改成本周热门,本月热门即可。