商务智能大总结7 构建推荐系统的基本步骤
构建推荐系统的基本步骤
1.搜集偏好(Collecting Preferences)
目标:建立一种方法来使得你的用户来参与表达,并把他们表达的内容对应到数字以形成相应的数据集合
关键:寻找一种表达不同人及其偏好的方法。
举例:
购物网站——用数字1来代表有人过去购买过某件商品,用数字0来代表未曾购买过任何商品。
新闻故事投票网站——可以分别用数字-1、0和1来表达“不喜欢”、“没有投票”、“喜欢”。
豆瓣:要求用户对每部电影用1到5颗星来评分,以此体现包括本人在内的每位影评者对某一影片的喜爱程度。
2.寻找相近的用户(Finding Similar Users)
目的:设计一种确定人们在品位方面的相似程度的方法。
欧几里德距离(Euclidean Distance Score)
以经过人们一致评价的物品为坐标轴,然后将参与评价的人绘制到图上,并考察他们彼此间的距离。
皮尔逊相关度(Person Correlation Coefficient)
通过判断两组数据与某一直线拟合程度来判断相似度。它在数据不是很规范的时候,如影评者对影片的评价总是相对于平均水平偏离很大时,会倾向于给出更好的结果。
余弦相似性(Cosine-based Similarity)
调整余弦相似性(Adjusted Cosine Similarity)
Jaccard系数
曼哈顿距离算法等
3.为评论者打分(Ranking the Critics)
目的:计算指定的人员与每个人的相似度,并找出最接近的匹配结果,也即所谓该人的最近邻。
前面例子中,即是要寻找与自己品位相似的影评者。
4.推荐物品(Recommending Items)
(最终)目的:一份推荐列表。
基于内容的推荐
余弦相似性
两个向量夹角为0度时,余弦值为1,相似度最大;夹角为90度时,余弦值为0,相似度最小
二维空间
计算词频向量相似度
余弦值接近1,相似性很大