社交网络挖掘应用信息推测:模型设计与特征挖掘
案例 (新客好友推荐):
给定一个新用户p,一个老用户q,即(p,q)对,判断p是否愿意加q为好友,即make_friend(p,q)=1还是0?
0/1特征
对于上图横坐标的各种属性,我们可以将其变换为0/1特征,即:
连续值特征
补充:相似性计算
- 余弦相似性
余弦相似度衡量的是2个向量间的夹角大小,通过夹角的余弦值表示结果,因此2个向量的余弦相似度为:
分子为向量A与向量B的点乘,分母为二者各自的L2范数相乘,即将所有维度值的平方相加后开方。
余弦相似度的取值为[-1,1],值越大表示越相似。
-
调整余弦相似性
调整余弦相似性与余弦相似性大致相同,所不同的是,A,B在减去用户平均评分向量后再代入余弦相似度公式中计算 -
Jaccard相似性
给定两个集合A,B jaccard 系数定义为A与B交集的大小与并集大小的比值
jaccard值越大说明相似度越高
特征组合
构造出特征的向量形式
预测值y (1代表是好友,0代表非好友)
构造训练集中的(X,y),然后学习函数f(X) —> y
指定待学习函数
有许多模型可以应用于函数f(x)的构造,下面是三种较为常用的模型
这些机器学习算法涉及到许多数学公式的推导,算法原理的解释,模型参数的选择等等。
以逻辑回归为例,模型的数学公式为:
在训练集里训练模型时,就是训练出a0,a1,a2这些系数的过程
选用不同的机器学习算法,得到的结果可能是不一样的。
验证结果
- 在训练集中训练出模型
- 将模型应用于验证集,预测验证集中的y值
- 将预测的y值与验证集中真实的y值做比较,得到模型的准确率
注:这是最近刚入手的DC学院的《数据挖掘——网络挖掘》课程中的笔记,老师还是讲的很详细的,但是自己记的就比较粗糙了,将就看……分享我的邀请码:AFAJ9I (够课的可以优惠),有需要自取。
课程网址:https://www.dcxueyuan.com//classDetail/classIntroduce/30/page.html?slxydc=c6a872