我用Python对翟天临的论文做了大数据分析！

点击上方“前端小苑”，选择“置顶公众号”

精品技术文章，热门资讯第一时间送达

昨天是元宵节，在南京，元宵节一到也意味着这个年过完了，我们也该回到自己的工作岗位上了。都说今年的瓜特别多（葫芦娃的那种），但是过年期间最甜的我想非翟天临的“知网是什么？”莫属了吧。

前段时间，微博上开始不断爆出翟天临学术不端，论文抄袭的消息，以至于牵扯到其导师、院长甚至整个北京电影学院。

我平常不怎么关注娱乐圈，所以刚开始并没有把这件事放在心上，直到网上爆出翟的论文大篇幅抄袭陈坤论文的消息，我才对这位娱乐圈博士的文章起了兴趣。接下来就让我们以一个coder的角度来硬核分析下翟的论文吧。

实验环境

工欲善其事，必先利其器，在开始分析之前，我先说明此次分析所处的实验环境，以免出现异常：

MacOS 10.14.3
Python 3.6.8（Anaconda）
Visual Studio Code
使用的包有：

pkuseg（分词）
matplotlib（绘图）
wordcloud（词云）
numpy（数学计算）
sklearn（机器学习）

数据获取

说实话，起初我以为就算翟不知“知网”为何物，“知网”也该收录翟的文章吧，可我在知网搜了好久也没能找到翟的论文，好在我在今日头条上找到了他的文章，保存在data/zhai.txt中。说到这，还真要感谢翟天临啊，都是因为他，大家才变得这么有学术精神，开始研究起本科硕士博士论文了。

数据清理

上一节我们已经将他的论文保存到一个txt中了，所以我们需要先将文章加载到内存中：

我用Python对翟天临的论文做了大数据分析！

我统计了下，除去开头的标题和末尾的致谢，总共25005个字。

接下来我们来进行数据清理，在这里我用了pkuseg对内容进行分词处理，同时去掉停用词后输出分词的结果。

所谓停用词就是在语境中没有具体含义的文字，例如这个、那个，你我他，的得地，以及标点符合等等。因为没人在搜索的时候去用这些没意义的停用词搜索，为了使得分词效果更好，我就要把这些停用词过滤掉。

我用Python对翟天临的论文做了大数据分析！

执行结果：

我用Python对翟天临的论文做了大数据分析！

这里我提两点：

1.为什么分词工具用的是pkuseg而不是jieba？

pkuseg是北大推出的一个分词工具，官方地址是：github.com/lancopku/pk…

2.为什么用哈工大的停用词表？

停用词表的下载地址在：github.com/YueYongDev/…

停用词表	效果较好的文本种类
哈工大停用词表	文献期刊类文本
百度停用词表	新闻报道类文本
四川大学停用词表	邮件文献类文本

参考文献：官琴, 邓三鸿, 王昊. 中文文本聚类常用停用词表对比研究[J]. 数据分析与知识发现, 2006, 1(3).

有兴趣阅读此篇论文的可在公众号：「01二进制」后台回复：「停用词表对比研究」获取

数据统计

说是数据统计，其实也没什么好统计的，这里简单化一下，就是统计下各个词出现的频率，然后输出词频最高的15个词

我用Python对翟天临的论文做了大数据分析！

打印的结果：

真的是个不可多得的“好演员”啊，能将角色带入生活，即使肚中无货却仍用自己的表演能力为自己设立一个“学霸”人设，人物形象如此饱满，兴许这就是创作的艺术吧！

文章中说的最多的就是生活、角色、人物、性格这些词，这些正是一个好演员的精神所在，如果我们将这些词做成词云的话，可能效果会更好。

生成词云

词云生成这个部分我采用的是wordcloud库，使用起来非常简单，网上教程也有很多，这里需要提一点的就是：为了防止中文乱码情况的发生，需要配置font_path这个参数。中文字体可以选用系统的，也可以网上找，这里我推荐一个免费的中文字体下载的网址：www.lvdoutang.com/zh/0/0/1/1.…

下面是生成词云的代码：

我用Python对翟天临的论文做了大数据分析！