LDA——从概率的角度去看文学

是自生自灭,还是概率使然。
LDA——从概率的角度去看文学
如果说上帝有数不尽的骰子,而人类现有的语言文字只是部分骰子的骰面(毕竟可能有其他外星文明,对应地球的语言只是部分骰子),当上帝添加新的骰子或者骰面的时候,新的语言文字就诞生了。

那么文章是不是就可以理解为上帝掷骰子后产生的结果,作家的思路、灵感不过是上帝在掷骰子。

针对文章的基本组成 来说。例如,“我”,这个词有许多种的表达方式,
如果将世界上所有的相关文本进行统计分析,就会得到各种表达所占的比例,这时就是对所有的人而言;
当然可以细化,例如只收集近代中国所有与"我"同义的表述,这时就是对近代中国人而言,当你写"我"时的先验概率,也就是说你当你要写"我"时,会以什么概率用什么形式来写出来,这时切记要将全部近代中国人当作一个作家开看,因为我们的采样就是如此。

以上对词的分析,只是从词频的角度去统计概率,这远远不够的。例如当你写文言文时,是不会用"我"这个词来表示"我"的。因此词的真正使用概率就开始变得复杂起来,它与文章的上下文开始有了关系。

当上帝掷完骰子后,一篇文章便出现, 或好或坏,但每一篇文章基本都有它自己的主题,主题是由全部词汇或者主要词汇产生的,那么我们怎么用概率来解释主题和词之间的关系呢?怎样用概率去找出一篇文章的主题呢? 在nlp中,文本模型就是准们处理这样的问题,而LDA则是其中一种。…