Python爬取pandaTV弹幕

Python爬取pandaTV弹幕

主要思路

对PandaTV直播间抓包分析得出的结论有:

(1)通过GET请求获取弹幕服务器地址;

(2)和弹幕服务器建立WebSocket连接后的具体过程需要在主页面引用的JS文件中找(建立连接、发心跳包、解压弹幕消息);

(3)WebSocket中传输的json对象为明文形式。

相关文件
关注转发后,私信回复“pandaTV”获取

开发工具

**Python版本:**3.5.4

相关模块:

requests模块以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

使用方式

(1)直接运行

功能:

根据输入的房间号,显示该房间实时弹幕。

若需其他功能请自行修改源代码。

CTRL+C键可停止程序运行。

首页随便找个房间演示下,如下图所示:

Python爬取pandaTV弹幕

(2)作为模块导入

使用方式如下图所示:

Python爬取pandaTV弹幕

说明与简单实例

返回的弹幕数据格式为:

Python爬取pandaTV弹幕

不是特别了解直播平台里这些东西是什么意思,了解了貌似也没什么用,因此对其他数据有兴趣的请自行了解获取其含义。

写了个将用户昵称及其发言内容存入excel中的脚本作为简单实例。

运行方式如下图所示:

Python爬取pandaTV弹幕

结果保存在results文件夹中,默认以房间号命名:

Python爬取pandaTV弹幕