Unsupervised User Identity Linkage via Factoid Embedding 阅读笔记
无监督的用户对齐学习
Unsupervised User Identity Linkage via Factoid Embedding
链接地址 https://arxiv.org/pdf/1901.06648.pdf
摘要
其关键思想是关于用户标识的每条信息都描述了真实情况标识所有者,从而将所有者与其他用户区分开来。我们用factoid表示这样一条信息,并将其建模为由用户标识、谓词和组成的三元组对象或另一个用户标识。通过嵌入这些事实,我们了解了用户身份的潜在表示,并将来自不同osn的两个用户身份(如果它们彼此接近)链接起来其他在用户嵌入空间。我们的Factoid嵌入算法是这样设计的:当我们学习嵌入空间时,每个嵌入的Factoid都被“翻译”成一个动作在用户嵌入空间中拉近相似的用户身份,并将不同的用户身份进一步分离。通过大量的实验来评价Factoid的嵌入效果两个实际的OSNs数据集。实验结果表明,即使在没有训练数据的情况下,Factoid嵌入算法的性能也优于最先进的方法。
模型框架
首先,我们从不同收集的信息中生成事实OSNs。接下来,我们将异构对象(例如名称、文本和图像)嵌入到它们各自的嵌入空间中(例如,名称将嵌入到名称嵌入空间中,等)结合有助于匹配用户身份的相似性度量。注意,在嵌入异构对象时,我们利用外部知识和先验知识,这样,如果两个对象相似,它们的嵌入向量在对象嵌入空间中将彼此接近。例如,用户名Desmond和Desmond Ng是相似的,因此,在名称嵌入空间中,这两个名称的嵌入向量将彼此接近。最后,利用factoids的三元结构,我们将各种对象嵌入到用户嵌入空间中。本质上,用户嵌入空间中的向量表示用户身份,通过对象嵌入投影的迭代,共享许多相似事实的用户身份将在用户嵌入空间。
事实生成器
C. Factoid Embedding
每个user-object 事实,定义概率
where vui is the embedding vector of user identity ui , vo is the embedding vector of data object o, and φpred is a projection function which maps vo to the user embedding space. Note that we have learned vo in the object embedding step。
映射函数学习object到用户的向量映射。Vui是用户最终学到的向量。就是说一个知道一个物品,
向量学习要满足知道一个物品属于一个人的概率。
定义目标函数
对于user-user事实,我们定义概率:
目标函数:
知道一个人是一个人还有的概率要能从对应的向量学习出来。
好了,学了一堆向量,根据向量空间的距离,进行用户身份链接任务。