short text model

北航的同行，去年连续发了三篇论文，都是和短文本处理相关的。

链接分别是：

第一篇，将短文本和场文本的分类区别开：

A topic model for co-occurring normal document and short texts

其基本思想是，短文本除了有基础话题（formal topic），也会讨论其他的信息（information topic），所以在短文本生成的过程中有bernounli分布，判断话题类型，而长文本是传统LDA，对于信息话题，具有全局的话题分布（和文档无关），如图：

其概率公式为，其中bdcm为单词话题类型的标签（1,0），表示来自K或J：

所以这篇文章还是基于假设短文本中不同单词的话题不同。没有解决其稀疏性的根本问题。（补充研究）——问题描述不清晰，这里的数据集结构是每个短文本都有一个长文本相关，即多个短文本伴随一个长文本进行补充描述，所以用长文本话题指导短文本话题。所以数据使用新闻数据。

第二篇：

Robust Word-Network Topic Model for Short Texts

其基本思想和BTM模型类似，都是为了强化co-occurrence的语义相关性对话题建模的促进作用，缓解稀疏性影响，和BTM不同的是，他们利用Bterm构建了pseudo-document，即doc-word空间到word-word空间。为了过滤无关话题，还添加了背景话题分类，其生成图，如下：

这个图让我想起了，LDA的变种，分割语义话题和语法单词的图模型。不过这里的文档是与单词相关的邻接伪文档。其生成过程中，关键也要判断x，表示w的话题是否来自于背景或者相关话题。

Gibbs Sampling过程不再赘述：

第二篇 2：

Word network topic model: a simple but general solution for short and imbalanced texts

对上一篇文章的补充（期刊），主要工作包括降低复杂度——降低权重（因为文档数为单词个数，所以只能降低边的权重，减少采样个数），同时补充了更多的实验。其中对权重的计算，使用到临近的权重和以及均值。

第三篇：Topic Modeling of Short Texts: A Pseudo-Document View

一个点子，三篇论文，干的漂亮， short text model

隐式的对文本进行聚合缓解稀疏性，并利用Spike-Slab强化。PTM（pseudo document-based topic model）和SPTM（sparsity-enhanced...) 可以看到，S的某些对PTM的限制得到更好的效果，即：更少的数据；短文本的属于单一文档设定。论文没有对pseudo-document做什么说明，只是说是聚合了短文本的伪文档。这里，我理解为在短文本上添加一层分布，文本-伪文档，伪文档-话题。而且，伪文档为潜在变量，潜在变量（像话题）。其他强化假设，比如，文本只属于一个伪文档，单词生成首先从对应伪文档的话题分布中采样话题，然后有话题-单词分布生成单词。

in a nutshell，伪文档被假设为单词更密集的中间文档，提高了co-courrence。相对于SATM（自我聚合话题模型）的两阶段：第一阶段，伪文档按照LDA方式生成，第二阶段通过伪文档生成。即SATM的伪文档-短文本的概率，而PTM是布尔值关系（唯一性）。同时对比了PAM，相比较PAM的super-topic到子话题的扩张，PTM的伪文档(第二层）的节点反而更多。

生成过程如下图：

PTM：对于每个短文本，首先采样器pseudo，对于每个单词，然后利用pseudu的话题分布生成话题z，通过多项式分布得到该单词。

SPTM：针对稀疏文本的（spike-slab模式，像不像targeted-aspect topic model的结构），用bernounli判断话题是否属于伪文档，然后用smooth和weak smooth先验平滑，前者是spiker，后者是slab。对于每个伪文档，首先采样二值π，对于每个话题，采样话题选择，然后利用smooth prior采样话题分布。

用空补充推断过程。

相关推荐