机器学习(十二)关联规则

机器学习(十二)

关联规则

基本概念:

啤酒与尿布的故事

关联规律挖掘:从交易数据中发现:买了X 还会买Y 的规则

关联规律挖掘‘购物篮分析’Market Basket Analysis(MBA)

关联规律->应用于推荐系统

通过数据的关联性进行分析挖掘,适合用于大数据样本中。

项集:包含0个或多个项的集合。包含k个项就是一个k项集

事务:表示事件
(比如每次去商场购买东西是一次事务,而实际购买到的东西就是项集)

关联规则的三个计算:

  • 支持度 support
  • 置信度 confidence
  • 提升度 lift

公式计算:

1.支持度

全部事务中,项集中{X,Y}同时出现的概率:
机器学习(十二)关联规则

2.置信度

在关联规则的先决条件 X 发生的条件下,关联结果Y发生的概率。
即含有X的项集条件下,同时含有Y的可能性:
机器学习(十二)关联规则

3.提升度

表示在含有 X 的条件下同时含有 Y 的可能性与无条件下含有Y的可能性之比。
即在Y的自身出现的可能性P(Y)的基础上,X的出现对于Y的“出镜率” P(Y/X)的提升程度:
机器学习(十二)关联规则

机器学习(十二)关联规则