python爬取哔哩哔哩小视频

抓取B站每日的小视频排行榜，本周，本月采用同样方法。

网址：https://vc.bilibili.com/p/eden/rank#/?tab=全部
工具：python3，谷歌浏览器，pycharm
模块：requests，time，random

网页：
python爬取哔哩哔哩小视频
打开开发者工具，按F12。刷新网页，抓取数据。我们会抓取到红色部分的一条数据。
点击这条数据，先看一下头部（Headers）。

python爬取哔哩哔哩小视频
再看一下参数信息

很明显请求的url是由基本网址https://api.vc.bilibili.com/board/v1/ranking/top?和参数拼接而成。
我们点击Preview，查看，发现是一个json数据，和我们爬取的视频一一对应关系。可以轻松获取文章标题，和下载数据。
python爬取哔哩哔哩小视频
我们很容易知道，该视频网站是动态加载的，我们继续往下滑动，看看是否还有这样的json数据，如果有，请求网址的参数有何变化。

果然还有这样的数据，我们再看一下头部的参数。

继续往下滑视频，
python爬取哔哩哔哩小视频
又发现了数据，观察参数变化，发现只有next_offset这个字段在变，每次都比前一个多10。这就好办了，把可变的next_offset写成变量，返回目标网页的json数据。

这就是完整的分析过程。下面是完整代码：
完整代码：

import requests
import time
import random

#获取网页原数据
def get_json(url):
    headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
    params={
        'page_size':'10',
        'next_offset':str(num),
        'tag':'今日热门',
        'platform':'pc',
    }
    try:
        html=requests.get(url,headers=headers,params=params)
        return html.json()
    except:
        print("请求错误")
        pass

#下载视频
def downloader(url,path):
    start=time.time()#开始时间
    size=0
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
    response=requests.get(url,headers,stream=True)#stream属性必须带上
    chunk_size=1024#每次下载的数据大小
    content_size=int(response.headers['content-length'])#总大小
    if response.status_code==200:
        print('[文件大小]：%0.2fMB'%(content_size/chunk_size/1024))#换算单位
        with open(path,'wb')as f:
            for data in response.iter_content(chunk_size=chunk_size):
                f.write(data)
                size+=len(data)





if __name__ == '__main__':
    for i in range(10):
        url='http://api.vc.bilibili.com/board/v1/ranking/top?'
        num=i*10+1
        html=get_json(url)
        infos=html['data']['items']
        for info in infos:
            title=info['item']['description']#小视频的标题
            video_url=info['item']['video_playurl']#视频地址
            print(title,video_url)
            #为了防止视频没有video_url
            try:
                downloader(video_url,path="%s.mp4"%title)
                print("成功下载一个")
            except BaseException:
                print("下载失败")
                pass
        time.sleep(int(format(random.randint(2,8))))#设置随机等待时间

如果想爬取每周，或每月的视频，只需更改参数params中的tag，把今日热门改成本周热门，本月热门即可。

python爬取哔哩哔哩小视频

相关推荐