FM-分解机模型详解

FM论文地址:https://www.csie.ntu.edu.tw/~b97053/paper/Rendle2010FM.pdf 

工业界传统的LR,由于简单且可解释被广泛使用,但人工特征工程的繁琐操作也是阻碍模型真正效果的主要原因,各类的特征组合需要大量的人工挖掘实验。鉴于此,基于矩阵分解的FM模型被人熟知,它的目标就是解决在稀疏数据的条件下特征组合的问题。本文将详细分析下FM模型的原理。

首先给出FM的目标函数(这里的模型特指二阶的分解模型):

FM-分解机模型详解

可能有读者会有问题,既然目的是为了组合二阶或者高阶的特征,那为什么模型不直接表达成如下的形式:

FM-分解机模型详解

既直接学习二阶特征的参数。原因其实很简单,这其实也是分解机模型存在的原因。假设模型中第m维的特征和第n维的特征在样本中(one-hot之后)从未同时为1过,则很明显其交叉特征的参数值必然为0,也就失去了二阶特征的意义。为了克服这种现象,FM是采用了矩阵分解的方式来重新解释交叉特征的关系,如下图所示:

FM-分解机模型详解

向量v就是每个特征对应的特征向量,其维数由自己确定,真正的二阶参数如公式,就是两个向量的点积。因此,FM也经常被用来作为降维或者是深度神经网络embedding的一种方式,例如FNN、DeepFM等DNN模型,都是采用了FM作为embedding的方式,具体可参考笔者之前的博客。v的值由模型训练本身产生,特征向量的点积就是两个特征的融合参数。为了简化计算(比如用tensorflow搭建FM网络),可以对二阶项做如下的计算:

FM-分解机模型详解

之所以对目标函数做了以上的变换,主要就是在自主建模的时候,原始表达式和上述表达式的时间复杂度是完全不同的。对于原始模型而言,由目标函数不难计算其复杂度为O(knFM-分解机模型详解),而显然对于计算之后的表达式,其时间复杂度为O(kn),具体算法不多说,可以看出其会对建模后的计算效率有所帮助。

说回FM本身,模型的训练依然采用梯度下降(随机梯度下降)的方式,同时损失函数选择对数损失函数:

FM-分解机模型详解

FM-分解机模型详解

由最大似然可以得到:

FM-分解机模型详解

看似复杂,实则是很简单的导数运算,而最后其实需要再关注的,就是y(也就是目标函数)对于参数的偏导数(sigmod函数的导数就不多说了,应该很好说)。而对于目标函数,一共涉及到了三个参数,当参数为w(i=0时,显然有:

FM-分解机模型详解

当参数为w(i不为0时):

FM-分解机模型详解

当参数为v时:

FM-分解机模型详解

综上所述,我们可以给出FM在使用sigmod**,随机梯度下降优化(去掉求和),考虑L2正则且为二分类问题时的训练伪代码:

FM-分解机模型详解

FM理论上可以学习出n阶特征的关系,但由于2阶以上计算过于复杂,本文只针对二阶FM情况,事实上大部分工业级引用也是二阶为主。而FM也有进阶的模型,像FFM,就是针对field,简单说就是根据加上了slot的条件来做矩阵分解,因此二阶参数会比FM更多,稍显复杂,笔者有时间也会做相应的分析。