Apriori算法

Apriori算法是一种用于关联规则挖掘(Association rule mining)的代表性算法
关联规则是形如 X→YX→Y 的蕴涵表达式,其中XX和YY是不相交的项集,即 X∩Y=∅X∩Y=∅。关联规则的强度可以用它的支持度(support)和置信度(confidence)来度量。支持度确定规则可以用于给定数据集的频繁程度,而置信度确定YY在包含XX的交易中出现的频繁程度。支持度和置信度这两种度量的形式定义如下:
Apriori算法
例如:给出数据
Apriori算法
可以求出规则{Milk, Diaper}→{Beer}的支持度和置信度:
Apriori算法
期望置信度(Expected confidence):通俗解释为在没有任何条件影响时,A在B中出现的概率有多大。
实例说明:如果某天共有1000 个顾客到商场购买物品,其中有250 个顾客购买了圆珠笔,则期望置信度就是25 %。
概率描述:物品集A对物品集B的期望置信度为support(B)=P(B)

提升度(lift):提升度是置信度与期望置信度的比值
通俗解释:提升度反映了“物品集A的出现”对物品集B的出现概率发生了多大的变化。
实例说明:上述的关联规则的提升度=65%/25%=2.6
概率描述:物品集A对物品集B的期望置信度为lift(A==>B)=confidence(A==>B)/support(B)=p(B|A)/p(B)

参考:https://blog.****.net/baimafujinji/article/details/53456931
https://www.cnblogs.com/nxld/p/6380417.html