DocTag2Vec, 文档标注

简述

DocTag2Vec
2017年7月的paper[1].
用途:
训练好之后, 给一篇未见文档, 从预先定义好的标签库中(size 可达几万), 挑出一些最合适的标签与之关联.
思想:
Inspired by Word2Vec, 左右邻居相似的词, 在语义上也有一定的相似性, DocTag2Vec 也是沿用并拓展了种思想.

DocTag2Vec, 文档标注

classifier parameter

Negtive Sampling

training

Doc2Vec 部分依旧是 CBOW+H.S. , 但 tag embedding 部分变成了 Negative Sampling.

  • 术语约定
    MLL: Multi-Label Learning.

  • 符号约定
    V: vocabulary size
    N: 样本中的文档数.
    M: size of tag set.
    K: dimension of the vector space of embedding.
    Td: 文档d的tag集合
    dt:
    tt: tag t 的vector.

DocTag2Vec, 文档标注
figure 模型的目标函数

DocTag2Vec, 文档标注
figure 模型的目标函数, 展开后

图中公式 符号约定:
α: tuning parameter.
p: 所有tag的离散分布.
r: 一个正整数, hyper-parameter. We sample r i.i.d. (独立同分布) instances of t from distribution p, denoted by {t1p,t2p,...,trp}.
E: 期望. 这部分可采用等价计算:
DocTag2Vec, 文档标注
figure 近似等价公式计算

prediction

参考

  1. paper 原文