社交网络挖掘应用信息推测:模型设计与特征挖掘

案例 (新客好友推荐)

给定一个新用户p,一个老用户q,即(p,q)对,判断p是否愿意加q为好友,即make_friend(p,q)=1还是0?

社交网络挖掘应用信息推测:模型设计与特征挖掘

0/1特征

社交网络挖掘应用信息推测:模型设计与特征挖掘

对于上图横坐标的各种属性,我们可以将其变换为0/1特征,即:

社交网络挖掘应用信息推测:模型设计与特征挖掘社交网络挖掘应用信息推测:模型设计与特征挖掘

连续值特征

社交网络挖掘应用信息推测:模型设计与特征挖掘

 

补充:相似性计算

  • 余弦相似性 
    余弦相似度衡量的是2个向量间的夹角大小,通过夹角的余弦值表示结果,因此2个向量的余弦相似度为:

社交网络挖掘应用信息推测:模型设计与特征挖掘
分子为向量A与向量B的点乘,分母为二者各自的L2范数相乘,即将所有维度值的平方相加后开方。 
余弦相似度的取值为[-1,1],值
越大表示越相似。

  • 调整余弦相似性 
    调整余弦相似性与余弦相似性大致相同,所不同的是,A,B在减去用户平均评分向量后再代入余弦相似度公式中计算

  • Jaccard相似性 
    给定两个集合A,B jaccard 系数定义为A与B交集的大小与并集大小的比值

社交网络挖掘应用信息推测:模型设计与特征挖掘
jaccard值越大说明相似度越高

特征组合

社交网络挖掘应用信息推测:模型设计与特征挖掘
构造出特征的向量形式

社交网络挖掘应用信息推测:模型设计与特征挖掘

预测值y (1代表是好友,0代表非好友)

构造训练集中的(X,y),然后学习函数f(X) —> y

指定待学习函数

有许多模型可以应用于函数f(x)的构造,下面是三种较为常用的模型

社交网络挖掘应用信息推测:模型设计与特征挖掘

这些机器学习算法涉及到许多数学公式的推导,算法原理的解释,模型参数的选择等等。

以逻辑回归为例,模型的数学公式为:

社交网络挖掘应用信息推测:模型设计与特征挖掘
在训练集里训练模型时,就是训练出a0,a1,a2这些系数的过程

选用不同的机器学习算法,得到的结果可能是不一样的。

验证结果

  • 在训练集中训练出模型
  • 将模型应用于验证集,预测验证集中的y值
  • 将预测的y值与验证集中真实的y值做比较,得到模型的准确率

社交网络挖掘应用信息推测:模型设计与特征挖掘

 

 

注:这是最近刚入手的DC学院的《数据挖掘——网络挖掘》课程中的笔记,老师还是讲的很详细的,但是自己记的就比较粗糙了,将就看……分享我的邀请码:AFAJ9I    (够课的可以优惠),有需要自取。

课程网址:https://www.dcxueyuan.com//classDetail/classIntroduce/30/page.html?slxydc=c6a872