论文阅读:Collaborative Deep Embedding Via Dual Networks

论文阅读:Collaborative Deep Embedding Via Dual Networks

1. Motivation

推荐系统想要提供精准的推荐,必须解决冷启动、用户兴趣稀疏性、观测带来的噪音和稀疏性这些问题。然而传统的MF无力应对这些问题,并且也无法对用户构建一个足够准确的表达。匹配的真正原因和从数据中观察到的信息存在很大的语义沟壑。从这个角度来讲,传统的方法是无法提取深度含义的(比如无法知道用户购买这本书到底是因为喜欢字里行间吐露出来的情感还是仅仅是因为句子)。还有就是冷启动问题,传统方法对未观测到的数据是没有办法表征的。
基于上述的挑战,本文提出了用dual网络分别对用户和物品建模,并且通过点击放在一起训练。本文一共有三种结构,
论文阅读:Collaborative Deep Embedding Via Dual Networks
第二和第三种考虑了深度建模过程的中间结果的保留性。并且第三种方式考虑了用两种不同的表达(深度和中间结果)去表征表达的不同属性。

2. Method

网络结构见上图,这里详细说一下公式推导。
从CMF出发,
论文阅读:Collaborative Deep Embedding Via Dual Networks
目标函数让推荐和预测最小。这是最直观的方式,通过梯度下降或者ALS求用户和物品表达。
那么,我如果想求用户的表达呢?
论文阅读:Collaborative Deep Embedding Via Dual Networks
也就是说u可以用物品embedding V和评分矩阵的第i行 ri来求,可以简化成
论文阅读:Collaborative Deep Embedding Via Dual Networks
而g可以代表神经网络中非线性变化函数。类型的,也可以通过相似的方式求物品表达i,那么最终的表达就是:论文阅读:Collaborative Deep Embedding Via Dual Networks
xj可以看做是评分矩阵中和物品j交互过的用户列向量(好像不太对,原文说的是对应物品的固有特征)。

3. Experiments

这里重点说一下dual mini-batches训练,由于网络是成对的,因此每次取的batch也是成对的。并且这里的用户batch和物品batch可以是不同的。并且,这样可以保证覆盖positive和未观测到的评分。
剩下的实验就是例行公事了。本文重点在冷启动问题的缓解,因此实验需要针对性的做这方面的工作。还有就是三个不同结构的对比,突出分支结构的优越性。
论文阅读:Collaborative Deep Embedding Via Dual Networks