#Paper Reading# Deep Interest Network for Click-Through Rate Prediction

论文题目: Deep Interest Network for Click-Through Rate Prediction
论文地址: https://dl.acm.org/citation.cfm?id=3219823
论文发表于: KDD 2018(CCF A类会议)

论文大体内容:
本文主要介绍了阿里妈妈团队用于CTR任务的DIN(Deep Interest Network)模型,该模型通过使用attention机制,能够更好的衡量用户的历史兴趣,从而取得更好的效果。

1. DNN会将用户历史行为的序列进行embedding成K维向量来表达用户的兴趣,这样会有以下问题:
①K维向量,最多只能表达K个独立的兴趣,而用户的兴趣可能不止K;
②K的大小会对计算量产生明显影响,一般用大的K效果会更好,但同时带来train和predict的rt更大,且容易overfiting;

2. DIN不再用一个点来表示用户兴趣,而是通过用一个在不同时刻不一样的分布表示:
①分布可以是多峰的,可以表达每个人有多个兴趣;
②K设置可以较低,降低计算量;

3. 用户的兴趣是多峰的不是单峰的,其实DIN的attention机制部分是为了用一个fix length的vector刻画用户面对不同的商品展现出不同的兴趣,这个点看起来很简单,但是传统的预估方法在一个user面对不同商品时用一个同样的vector来表达这个user。如果在这种情况下要想表达多样的兴趣,最简单的方案是增加user vector的维度,然而这会带来overfitting和计算压力,所以DIN用类似attention的机制试图解决这个问题[1];

4. DIN的结构如下;
#Paper Reading# Deep Interest Network for Click-Through Rate Prediction

5. DIN模型其实就是在DNN基础上加了attention,而注意力机制顾名思义,就是模型在预测的时候,对用户不同行为的注意力是不一样的,“相关”的行为历史看重一些,“不相关”的历史甚至可以忽略。那么这样的思想反应到模型中也是直观的。比如在视频推荐模型中,DIN可以通过增加用户的历史行为feature:用户观看的近20个show_id,近20个video_id,然后使用attention网络,最后与其它非历史行为feature在MLP中汇合;

6. 稀疏的embedding的正则设计
基础模型和DIN模型都遇到了大量参数、稀疏输入时过拟合的问题。所以作者设计了一个自适应性的正则化方法,它可以对出现频率不同的项目给予不同的惩罚,牺牲了一点训练速度避免了过拟合的出现。论文中对比了多种不同的正则化方法,这个自适应方法的表现还不错[2]。
①针对feature id出现的频率,来自适应的调整他们正则化的强度;
②对于出现频率高的,给与较小的正则化强度;
③对于出现频率低的,给予较大的正则化强度[3];
#Paper Reading# Deep Interest Network for Click-Through Rate Prediction

7. Dice(Data Dependent Activation Function)**函数
#Paper Reading# Deep Interest Network for Click-Through Rate Prediction

实验
8. Dataset
#Paper Reading# Deep Interest Network for Click-Through Rate Prediction

9. Baseline
①LR;
②BaseModel;
③WDL;
④PNN;
⑤DeepFM;

10. Metric
①AUC;
②RelaImpr,用于衡量相比BaseModel的收益;

11. 实验结果
#Paper Reading# Deep Interest Network for Click-Through Rate Prediction
#Paper Reading# Deep Interest Network for Click-Through Rate Prediction


参考资料: 
[1] https://zhuanlan.zhihu.com/p/30597671
[2] https://www.leiphone.com/news/201706/pDfOAoMYp8mqNKEC.html
[3] https://www.jianshu.com/p/73b6f5d00f46

 

以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!