推荐系统简介

一、推荐系统的目的:

①用户更好更快地获得自己想要的
②内容能更好地被推荐给喜欢它的用户
③平台能够留存更多的用户资源

二、推荐系统基本思想

1、精准推送
根据用户的特征喜好,直接匹配包含此特征的产品

2、物以类聚
利用物品的相似性,根据用户喜欢过的商品的特征,推荐有相似特征的商品;

3、人以群分
利用用户和用户的相似性,某类商品被一类人群喜欢(比如18-25岁的女性群体),给属于同样群体的用户推荐该类产品;

三、推荐系统分类

推荐系统简介
1、基于人口统计学的推荐算法
根据用户信息,例如年龄,性别等,找到用户之间的相关性,给当前用户推荐与她类似的用户喜欢的物品
推荐系统简介

2、基于内容的推荐算法
基于产品的特征,寻找产品之间的相关性。基于用户的过往喜好记录,推荐类似的产品。
推荐系统简介

3、基于协同过滤的算法推荐
根据用户对物品的喜好,根据用户之间的联系,根据物品本身的联系,基于这几项彼此之间的关联进行推荐
3.1 基于用户的协同过滤
推荐系统简介
基于用户对物品偏好,发现用户口味和偏好相似的“邻居”用户群,然后,基于这 K 个邻居的历史偏好信息,为当前用户进行推荐。比如a用户喜欢物品A,C, b用户喜欢物品B,c用户喜欢物品A,C,D,可以发现用户a和用户c 的口味和偏好是比较类似,故猜测用户a也喜欢物品D。

该机制和基于人口统计学的推荐机制都是计算用户的相似度,并基于“邻居”用户群计算推荐,但它们所不同的是如何计算用户的相似度:
基于人口统计学的机制只考虑用户本身的特征,
基于用户的协同过滤机制可在用户的历史偏好的数据上计算用户的相似度,它的基本假设是,喜欢类似物品的用户可能有相同或者相似的口味和偏好。

3.2 基于物品的协同过滤
推荐系统简介
基于物品被哪类人群喜欢,发现物品之间的相似度,然后根据用户的历史偏好信息,将类似的物品推荐给用户。
比如
用户 a喜欢物品 A 和物品 C
用户 b 喜欢物品 A,物品 B 和物品 C
用户 c 喜欢物品 A
据此分析物品A和C比较类似的,喜欢物品 A 的人都喜欢物品 C,基于这个数据可以推断用户 c 很有可能也喜欢物品 C,所以系统会将物品 C 推荐给用户c。

基于物品的协同过滤推荐和基于内容的推荐其实都是基于物品相似度预测推荐,只是相似度计算的方法不一样,前者是从用户历史的偏好推断,而后者是基于物品本身的属性特征信息。

3.3 基于模型的协同过滤
根据用户的喜好训练一个模型,然后用模型去预测用户的喜好,进行推荐。

4、混合推荐

  • 加权的混合(Weighted Hybridization)
    用线性公式将几种不同的推荐按照一定权重组合起来,具体权重的值需要在测试数据集上反复实验,从而达到最好的推荐效果

  • 切换的混合(Switching Hybridization)
    对于不同的情况(数据量,系统运行状况,用户和物品的数目等),推荐策略可能有很大的不同,那么切换的混合方式,就是允许在不同的情况下,选择最为合适的推荐机制计算推荐

  • 分区的混合(Mixed Hybridization)
    采用多种推荐机制,并将不同的推荐结果分不同的区显示给用户。
    Amazon,当当网等很多电子商务网站都是采用这样的方式,用户可以得到很全面的推荐,也更容易找到他们想要的东西

  • 分层的混合(Meta-Level Hybridization)
    采用多种推荐机制,并将一个推荐机制的结果作为另一个的输入,从而综合各个推荐机制的优缺点,得到更加准确的推荐。

四、推荐系统实验方法

(一)离线实验
1、步骤

  • 调查,日志等方式获得用户行为数据
  • 将数据集分为训练集和预测集
  • 建立模型,在训练集训练,在测试集上预测
  • 根据事先指定的评价指标,评价算法在测试集上的预测结果

2、优点

  • 不需要用户参与
  • 速度快,可以用不同的算法训练

3、缺点

  • 离线的指标和实际的指标存在差距

(二)用户调查
1、步骤
离线指标和实际商用指标存在差距,预测准确度高不一定代表实际用户满意度就高。要获得实际用户数据,最好的办法就是上线直接测试,但是这样风险比较大,所以一般在实际上线前会事先做个满意度调查。调查一些真实用户,让他们在需要预测的推荐系统上完成一些任务,然后记录他们的行为,并让他们回答一些问题,最后进行分析

2、优点

  • 数据真实,获得用户的主观感受/3、缺点
  • 用户样本有限,测试结果统计意义不足
  • 无法保证用户的行为数据是否可靠,是否乱填

(三)在线实验
1、步骤

  • 在完成离线实验和必要的用户调查后,可以将推荐系统上线做AB测试,将它和旧的算法进行比较。
    AB测试:将用户随机分流为不同的算法,不同组使用不同的算法。然后统计不同组的评价指标,用户比较不同的算法优劣。比如统计不同算法下的点击率。

2、优点

  • 数据更加真实,可以获得实际上线后用户的真实反馈,得到具有意义的商业指标

3、缺点

  • 耗费时间长

五、推荐系统评价指标

推荐系统评价指标:
• 预测准确度
• 用户满意度
• 覆盖率
• 多样性
• 惊喜度
• 信任 度
• 实时性
• 健壮性
• 商业目

推荐准确度评价:
1、评分预测
评分预测的准确度一般用均方根误差(RMSE)或平均绝对误差(MAE)计算。
推荐系统简介

2、Top-N推荐
网站提供推荐 服务时,一般是给用户一个个性化的列表,这种推荐叫做Top-N推荐,一般用精确度和召回率来度量。

  • 精确度:预测为正例的样本中,有多少预测正确。
  • 召回率:真实为正例的样本,有多少预测正确。

六、推荐系统的应用

推荐系统广泛应用于互联网各个领域,其中电商领域最多,另外电影和视频网站,个性化阅读,个性化广告等都有应用。
例如Amazon 通过数据挖掘算法和比较用户的消费偏好于其他用户进行对比,借以预测用户可能感兴趣的商品。

  • 今日推荐:
    根据用户的近期的历史购买或者查看记录,并结合时下流行的物品给出一个折中的推荐。
  • 新产品的推荐:
    采用基于内容的推荐机制,将一些新到物品推荐给用户。在方法选择上由于新物品没有大量的用户喜好信息,所以基于内容的推荐能很好的解决这个“冷启动”的问题。
  • 捆绑销售:
    采用数据挖掘技术对用户的购买行为进行分析,找到经常被一起或同一个人购买的物品集,进行捆绑销售,这是一种典型的基于项目的协同过滤推荐机制。
  • 别人购买 / 浏览的商品:
    这也是一个典型的基于项目的协同过滤推荐的应用,通过社会化机制用户能更快更方便的找到自己感兴趣的物品。