DocTag2Vec, 文档标注
简述
DocTag2Vec
2017年7月的paper[1].
用途:
训练好之后, 给一篇未见文档, 从预先定义好的标签库中(size 可达几万), 挑出一些最合适的标签与之关联.
思想:
Inspired by Word2Vec, 左右邻居相似的词, 在语义上也有一定的相似性, DocTag2Vec 也是沿用并拓展了种思想.
classifier parameter
Negtive Sampling
training
Doc2Vec 部分依旧是 CBOW+H.S. , 但 tag embedding 部分变成了 Negative Sampling.
术语约定
MLL: Multi-Label Learning.符号约定
V : vocabulary sizeN : 样本中的文档数.M : size of tag set.K : dimension of the vector space of embedding.Td : 文档d的tag集合dt :tt : tagt
的vector.
figure 模型的目标函数
figure 模型的目标函数, 展开后
图中公式 符号约定:
figure 近似等价公式计算