FM-分解机模型详解

FM论文地址：https://www.csie.ntu.edu.tw/~b97053/paper/Rendle2010FM.pdf

工业界传统的LR，由于简单且可解释被广泛使用，但人工特征工程的繁琐操作也是阻碍模型真正效果的主要原因，各类的特征组合需要大量的人工挖掘实验。鉴于此，基于矩阵分解的FM模型被人熟知，它的目标就是解决在稀疏数据的条件下特征组合的问题。本文将详细分析下FM模型的原理。

首先给出FM的目标函数（这里的模型特指二阶的分解模型）：

FM-分解机模型详解

可能有读者会有问题，既然目的是为了组合二阶或者高阶的特征，那为什么模型不直接表达成如下的形式：

FM-分解机模型详解

既直接学习二阶特征的参数。原因其实很简单，这其实也是分解机模型存在的原因。假设模型中第m维的特征和第n维的特征在样本中（one-hot之后）从未同时为1过，则很明显其交叉特征的参数值必然为0，也就失去了二阶特征的意义。为了克服这种现象，FM是采用了矩阵分解的方式来重新解释交叉特征的关系，如下图所示：

FM-分解机模型详解

向量v就是每个特征对应的特征向量，其维数由自己确定，真正的二阶参数如公式，就是两个向量的点积。因此，FM也经常被用来作为降维或者是深度神经网络embedding的一种方式，例如FNN、DeepFM等DNN模型，都是采用了FM作为embedding的方式，具体可参考笔者之前的博客。v的值由模型训练本身产生，特征向量的点积就是两个特征的融合参数。为了简化计算（比如用tensorflow搭建FM网络），可以对二阶项做如下的计算：

FM-分解机模型详解