Google Wide And Deep model 解释与应用

    这个模型是Google2016年6月发布用于分类和回归的模型,首次应用在了Google Play的推荐上,它的核心思想是结合线性模型的记忆能力(memorization)和DNN模型的泛化能力(generalization),在训练时同时优化2个模型的参数,从而达到整体模型的预测能力最优,这个有别于组合模型(组合模型是在分别训练几个模型,在预测层再组合)

注:为什么线性模型有记忆能力,而DNN模型有泛化能力?文章指出,wide端模型通过离散特征的交叉组合进行memorization, deep端模型通过特征的embedding进行generalization. 同时wide and deep模型中使用的特征包括两大类:一类是连续型特征,主要用于deep模型的训练,包括real value 类型的特征及embedding类型的特征等;一类是离散型特征,主要用于wide模型的训练,包括sparse类型的特征以及cross类型的特征等。

Google Wide And Deep model 解释与应用

几个数据编码的方法讲解一下:

(1)sparse column from keys

  (2)  sparse column from vocabulary file

  (3)  sparse column with hash bucket

  (4)  crossed column (笛卡尔积)