机器学习-关联规则

关联规则:关联规则是描述在一个交易中物品之间同时出现的规律的知识模式,更确切的说,关联规则是通过量化的数字描述物品A的出现对物品B的出现有多大影响

机器学习-关联规则

A与B是独立的两个非空事务,且A、B同属于一个事务集,那么关联规则是形如A=>B的蕴含式。

关联规则有两种度量标准:支持度置信度

 

支持度support

规则A=>B在事务集D中成立,具有支持度S。S是事务集D中事务包含AUB的百分比P(AUB),记做

        support(A=>B) = P(AUB)

 

设事务集D中包含n个事务,D中包含A同时包含B的事务共c个。

        support(A=>B) = P(AUB)

                       =Freq (AUB) / n

                       =c / n

置信度confidence

置信度为在出现数据项集A的前提下,出现数据项集B的概率,其置信度就是条件概率P(B/A),即

        confidence(A=>B)=P( B/A )

设事务集D*有n个事务,D中包含A的事务有d个,D中既包含A同时包含B的事务共有c个,那么

        confidence(A=>B) = P(B/A)

                               = P(BUA) / P(A)

                              =c / d

 

关联规则

        A=>B = [ support = c% ; confidence = d% ]

机器学习-关联规则

 

关联规则挖掘步骤

关联规则挖掘主要包括两大步骤

一、挖掘所有频繁项集

    频繁项集:若某一项集的支持度高于预先设置的最小支持度阀值,那么该项集为频繁项集。

二、由频繁项集产生强关联规则

    检查频繁项集是否满足最小支持度和最小置信度。

 

Apriori算法

机器学习-关联规则

机器学习-关联规则

计算方法

  • 计算所有一项集,刨除支持度小于最小支持度的项集
  • 连枝生成二项集,计算支持度,刨除支持度小于最小支持度的项集(剪枝)
  • 连枝生成多项集,直到不能连枝。
  • 得出频繁项集强规则

连枝生成的项集数可以用下列无序排列公式统计数量。例如从一项集连枝成二项集,N就为一项集的数量,X为2。

机器学习-关联规则

 

附:如果是有序排列,公式为

机器学习-关联规则

 

机器学习-关联规则机器学习-关联规则

机器学习-关联规则