DataWhale打卡Day01--推荐系统入门

推荐系统入门

协同过算法

简介

协同过滤（Collaborative Filtering）推荐算法是最经典、最常用的推荐算法。
所谓协同过滤，基本思想是根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品(基于对用户历史行为数据的挖掘发现用户的喜好偏向，并预测用户可能喜好的产品进行推荐)，一般是仅仅基于用户的行为数据（评价、购买、下载等）,而不依赖于项的任何附加信息（物品自身特征）或者用户的任何附加信息（年龄，性别等）。目前应用比较广泛的协同过滤算法是基于邻域的方法，而这种方法主要有下面两种算法：

基于用户的协同过滤(UserCF)
基于商品的协同过滤(ItemCF)

矩阵分解算法

隐语义模型与矩阵分解

协同过滤算法的特点就是完全没有利用到物品本身或者是用户自身的属性，仅仅利用了用户与物品的交互信息就可以实现推荐，是一个可解释性很强，非常直观的模型，但是也存在一些问题，第一个就是处理稀疏矩阵的能力比较弱，所以为了使得协同过滤更好处理稀疏矩阵问题，
增强泛化能力，从协同过滤中衍生出矩阵分解模型(Matrix Factorization,MF)或者叫隐语义模型, 两者差不多说的一个意思，就是在协同过滤共现矩阵的基础上，使用更稠密的隐向量表示用户和物品，挖掘用户和物品的隐含兴趣和隐含特征，在一定程度上弥补协同过滤模型处理稀疏矩阵能力不足的问题。

隐语义模型

隐语义模型最早在文本领域被提出，用于找到文本的隐含语义。在2006年，被用于推荐中，它的核心思想是通过隐含特征（latentfactor）联系用户兴趣和物品（item），基于用户的行为找出潜在的主题和分类，然后对item进行自动聚类，划分到不同类别/主题(用户的兴趣)。

Factorization Machines

FM模型的引入

逻辑回归模型及其缺点
- FM模型其实是一种思路，具体的应用稍少。一般来说做推荐CTR预估时最简单的思路就是将特征做线性组合（逻辑回归LR），传入sigmoid中得到一个概率值，本质上这就是一个线性模型，因为sigmoid是单调增函数不会改变里面的线性模型的CTR预测顺序，因此逻辑回归模型效果会比较差。也就是LR的缺点有：
  - 1. 是一个线性模型
  - 每个特征对最终输出结果独立，需要手动特征交叉（x_i * x_j ），比较麻烦

Wide&Deep

点击率预估简介

点击率预估是对每次广告点击情况作出预测，可以输出点击或者不点击，也可以输出该次点击的概率，后者有时候也称为pClick.

点击率预估模型要做什么？

通过上述点击率预估的基本概念，我们会发现其实点击率预估问题就是一个二分类的问题，在机器学习中可以使用逻辑回归作为模型的输出，其输出的就是一个概率值，我们可以将机器学习输出的这个概率值认为是某个用户点击某个广告的概率。

Wide&Deep模型的“记忆能力”与“泛化能力”

Memorization 和 Generalization是推荐系统很常见的两个概念，其中Memorization指的是通过用户与商品的交互信息矩阵学习规则，而Generalization则是泛化规则。我们前面介绍的FM算法就是很好的Generalization的例子，它可以根据交互信息学习到一个比较短的矩阵，其中储存着每个用户特征的压缩表示（embedding），而协同过滤与SVD都是靠记住用户之前与哪些物品发生了交互从而推断出的推荐结果，这两者推荐结果当然存在一些差异，我们Wide&Deep模型就能够融合这两种推荐结果做出最终的推荐，得到一个比之前的推荐结果都好的模型。
可以这么说：Memorization趋向于更加保守，推荐用户之前有过行为的items。相比之下，generalization更加趋向于提高推荐系统的多样性（diversity）。Memorization只需要使用一个线性模型即可实现，而Generalization需要使用DNN实现。下面是wide&deep模型的结构图，由左边的wide部分(一个简单的线性模型)，右边的deep部分(一个典型的DNN模型)。
DataWhale打卡Day01--推荐系统入门

GBDT+LR

GBDT+LR简介

前面介绍的协同过滤和矩阵分解存在的劣势就是仅利用了用户与物品相互行为信息进行推荐，忽视了用户自身特征，物品自身特征以及上下文信息等，导致生成的结果往往会比较片面。而这次介绍的这个模型是2014年由Facebook提出的GBDT+LR模型，该模型利用GBDT自动进行特征筛选和组合，进而生成新的离散特征向量，再把该特征向量当做LR模型的输入，来产生最后的预测结果，该模型能够综合利用用户、物品和上下文等多种不同的特征，生成较为全面的推荐结果，在CTR点击率预估场景下使用较为广泛。下面首先会介绍逻辑回归和GBDT模型各自的原理及优缺点，然后介绍GBDT+LR模型的工作原理和细节。

DataWhale打卡Day01--推荐系统入门

推荐系统入门

推荐系统简介

什么是推荐系统

常用评测指标

多路召回策略

Embedding召回

协同过算法

简介

矩阵分解算法

隐语义模型与矩阵分解

隐语义模型

Factorization Machines

FM模型的引入

Wide&Deep

点击率预估简介

点击率预估模型要做什么？

Wide&Deep模型的“记忆能力”与“泛化能力”

GBDT+LR

GBDT+LR简介

DataWhale打卡Day01--推荐系统入门

推荐系统入门

推荐系统简介

什么是推荐系统

常用评测指标

多路召回策略

Embedding召回

协同过算法

简介

矩阵分解算法

隐语义模型与矩阵分解

隐语义模型

Factorization Machines

FM模型的引入

Wide&Deep

点击率预估简介

点击率预估模型要做什么？

Wide&Deep模型的“记忆能力”与“泛化能力”

GBDT+LR

GBDT+LR简介

相关推荐