Google Wide And Deep model 解释与应用

这个模型是Google2016年6月发布用于分类和回归的模型，首次应用在了Google Play的推荐上，它的核心思想是结合线性模型的记忆能力（memorization）和DNN模型的泛化能力（generalization）,在训练时同时优化2个模型的参数，从而达到整体模型的预测能力最优，这个有别于组合模型（组合模型是在分别训练几个模型，在预测层再组合）

注：为什么线性模型有记忆能力，而DNN模型有泛化能力？文章指出，wide端模型通过离散特征的交叉组合进行memorization, deep端模型通过特征的embedding进行generalization. 同时wide and deep模型中使用的特征包括两大类：一类是连续型特征，主要用于deep模型的训练，包括real value 类型的特征及embedding类型的特征等；一类是离散型特征，主要用于wide模型的训练，包括sparse类型的特征以及cross类型的特征等。

几个数据编码的方法讲解一下：

（1）sparse column from keys

(2) sparse column from vocabulary file

(3) sparse column with hash bucket

(4) crossed column (笛卡尔积)

Google Wide And Deep model 解释与应用

相关推荐