推荐系统之基于TF-IDF的特征提取推荐案例
基于ml-latest-small的基于TF-IDF的特征提取
基于内容推荐流程
- 建立物品画像
- 数据来源:用户打tag 和 电影的分类值
- 根据tf-idf的结果 为每部电影筛选出top-n(td-idf较大)个关键词
- 电影id-关键词-关键词权重
- 建立倒排索引
- 通过关键词找到电影
- 遍历 电影id-关键词-关键词权重 读取每一个关键词,用关键词作为key [(关键词对应电影id,tfidf)]作为value 保存到dict中
- 用户画像
- 看用户看过电影(打过分的),到电影的id-关键词-关键词权重数据中 找到所有的关键词
- 把用户看过的所有关键词 放到一起 统计词频
- 出现多的关键词 作为用户的兴趣词 实际上就是用户画像的关键词
- 根据用户的兴趣词 找到兴趣词对应的电影 多个兴趣值可能对应一个电影 {电影id:[关键词1权重,关键词2权重]}
- 把每一个电影对应的关键词权重求和 排序 推荐给用户
数据来源:
https://grouplens.org/datasets/movielens/
源码详见:
https://gitee.com/chenjialun16/recommendation_system