pLSA理解

由于基于SVD的LSA进行奇异值分解非常耗时,并且缺乏数理统计基础。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。

pLSA在原来基础上增添了统计概率,在参数学习方面采用EM算法。接下来先介绍pLSA的整体思想,然后介绍EM算法求参过程。

整体思想:

pLSA理解

pLSA理解
pLSA理解

下面给出用EM算法估计PLSA参数的详细推导过程:

pLSA理解
pLSA理解
pLSA理解
pLSA理解
pLSA理解
pLSA理解