背景

论文见[1].
MMoE, Multi-gate Mixture-of-Experts.
底层共享,上层拆塔,是多任务学习的常规实现. 论文提出了使用多个expert(其实就是DNN), 并使用多个gate(expert_num 的 softmax) 的架构设计, 直观明了.
使用场景为: 推荐系统的多目标(ctr,互动率,转化率,etc.)

网络结构

MMoE 多任务学习
图: 多任务学习的网络架构演化, c 为MMoE网络架构

gate

MMoE 多任务学习
图: 截自论文的 gate 说明.

思考

不同gate为不同task分配不同expert的不同权重, 这种动态作 weighted-sum 的操作, 跟attention 机制的出发点是一样一样的.
还有一篇推荐领域多任务, 阿里的 ESSM.

参考

paper,KDD 2018,Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts.

MMoE 多任务学习

背景

网络结构

gate

相关实验

人造数据集

内容推荐

offline

live

思考

参考

MMoE 多任务学习

背景

网络结构

gate

相关实验

人造数据集

内容推荐

offline

live

思考

参考

相关推荐