机器学习-关联规则
关联规则:关联规则是描述在一个交易中物品之间同时出现的规律的知识模式,更确切的说,关联规则是通过量化的数字描述物品A的出现对物品B的出现有多大影响
A与B是独立的两个非空事务,且A、B同属于一个事务集,那么关联规则是形如A=>B的蕴含式。
关联规则有两种度量标准:支持度和置信度
支持度support
规则A=>B在事务集D中成立,具有支持度S。S是事务集D中事务包含AUB的百分比P(AUB),记做
support(A=>B) = P(AUB)
设事务集D中包含n个事务,D中包含A同时包含B的事务共c个。
support(A=>B) = P(AUB)
=Freq (AUB) / n
=c / n
置信度confidence
置信度为在出现数据项集A的前提下,出现数据项集B的概率,其置信度就是条件概率P(B/A),即
confidence(A=>B)=P( B/A )
设事务集D*有n个事务,D中包含A的事务有d个,D中既包含A同时包含B的事务共有c个,那么
confidence(A=>B) = P(B/A)
= P(BUA) / P(A)
=c / d
关联规则
A=>B = [ support = c% ; confidence = d% ]
关联规则挖掘步骤
关联规则挖掘主要包括两大步骤
一、挖掘所有频繁项集
频繁项集:若某一项集的支持度高于预先设置的最小支持度阀值,那么该项集为频繁项集。
二、由频繁项集产生强关联规则
检查频繁项集是否满足最小支持度和最小置信度。
Apriori算法
计算方法
- 计算所有一项集,刨除支持度小于最小支持度的项集
- 连枝生成二项集,计算支持度,刨除支持度小于最小支持度的项集(剪枝)
- 连枝生成多项集,直到不能连枝。
- 得出频繁项集强规则
连枝生成的项集数可以用下列无序排列公式统计数量。例如从一项集连枝成二项集,N就为一项集的数量,X为2。
附:如果是有序排列,公式为