我用python扒出了室友的初恋史

​我的室友王大国,一直号称自己母胎单身,但我和其他室友一致不相信,因为刚上大学的时候明明经常听到他打电话啊,还骚里骚气的
我用python扒出了室友的初恋史
不知道是在家待傻了,还是春天来了,今天,我的室友王大国发了下面一条朋友圈:
我用python扒出了室友的初恋史
于是大家都开始夸他“不要face”
就在此时,我灵机一现,想出一个绝妙的办法——用python找出大国小朋友的前任女友
我用python扒出了室友的初恋史
首先我进入他的qq空间(因为以前微信没流行的时候,广大90后还是很喜欢玩qq的,尤其是小情侣,几乎天天留言腻歪),然后很自然的来到了留言板
我用python扒出了室友的初恋史
发现王大国的留言在3年前就断了,但是还是有几十页的留言,原来他的人缘以前就那么好

下面开始用python绝技开始分析这些留言:

1.用python爬取留言并保存

爬取方式大概可以分为2种:
①用selenium操控浏览器,模拟登录,然后逐页爬取,缺点:速度较慢;
②requests创建1个会话,然后模拟登录,再根据参数特征进行逐页爬取,缺点:模拟登录过程太难;
这么看来哪种方式都不合我心意,那么怎么才能找到即快又简单的方式呢?
我们只需改进一下第二种方式就ok了,即用requests带着登录后的cookie值去爬取,省去了参数分析的步骤,代码如下:
我用python扒出了室友的初恋史
最后的results为评论的列表,再把qq号、昵称、评论时间、评论内容保存在表格中:
我用python扒出了室友的初恋史

2.先分析一下留言数量排名

先找到留言数量排名前十的好友,主要涉及到pandas操控excel表格知识,代码如下:
我用python扒出了室友的初恋史
最后将留言数量排名前十的好友信息以数据框的格式存入new_dataframe中。

3.用pyecharts画出柱状图

Pyecharts之前已经讲过很多次了,代码如下:
我用python扒出了室友的初恋史
柱状图为:
我用python扒出了室友的初恋史
一位昵称为“小静”的好友评论次数最多,总共48次,我们可以发现王大国这个厚脸皮自己给自己留了30多次言
接下来对“小静”的留言内容进行分析,画一个词云图,代码如下:
我用python扒出了室友的初恋史
词云图为:
我用python扒出了室友的初恋史
哈哈哈,又是“班里”,又是“好想你”的,这简直是学生时代偷偷摸摸爱情的典型啊,赶紧返回看一看留言时间:
我用python扒出了室友的初恋史
看来在一起的时间还不短呢
然后就开始给王大国“对质”:
我用python扒出了室友的初恋史
又是和大国斗智斗勇的一天,开森!

本文代码已传至【python的爬虫与数据分析之路】公众号后台,请输入【初恋】获取