推荐系统之基于TF-IDF的特征提取推荐案例

基于ml-latest-small的基于TF-IDF的特征提取

基于内容推荐流程

  • 建立物品画像
    • 数据来源:用户打tag 和 电影的分类值
    • 根据tf-idf的结果 为每部电影筛选出top-n(td-idf较大)个关键词
    • 电影id-关键词-关键词权重
  • 建立倒排索引
    • 通过关键词找到电影
    • 遍历 电影id-关键词-关键词权重 读取每一个关键词,用关键词作为key [(关键词对应电影id,tfidf)]作为value 保存到dict中
  • 用户画像
    • 看用户看过电影(打过分的),到电影的id-关键词-关键词权重数据中 找到所有的关键词
    • 把用户看过的所有关键词 放到一起 统计词频
    • 出现多的关键词 作为用户的兴趣词 实际上就是用户画像的关键词
  • 根据用户的兴趣词 找到兴趣词对应的电影 多个兴趣值可能对应一个电影 {电影id:[关键词1权重,关键词2权重]}
    • 把每一个电影对应的关键词权重求和 排序 推荐给用户

数据来源:
https://grouplens.org/datasets/movielens/
源码详见:
https://gitee.com/chenjialun16/recommendation_system

推荐系统之基于TF-IDF的特征提取推荐案例
推荐系统之基于TF-IDF的特征提取推荐案例
推荐系统之基于TF-IDF的特征提取推荐案例
推荐系统之基于TF-IDF的特征提取推荐案例
推荐系统之基于TF-IDF的特征提取推荐案例
推荐系统之基于TF-IDF的特征提取推荐案例
推荐系统之基于TF-IDF的特征提取推荐案例
推荐系统之基于TF-IDF的特征提取推荐案例