英文名 Confidence。它是第二个门槛，在这里我们也可以设置最小阈值。置信度表示在关联规则的先决条件X发生的条件下，Y发生的概率。如果跟前面的项集的概念联系到一块，置信度的意思就是如果在含有X的项集里面也含有Y的可能性。
confidence(X—>Y)=P(Y|X)=P(X, Y)/P(X)

提升度

英文名lift。提升度可以看做是对置信度的一个补充。置信度是在X发生的情况下，Y发生的概率。而提升度是在X发生的情况下，Y发生的概率与没有这个条件下项集中出现Y的可能性之比。
当lift为1时，表示X和Y相互独立，当lift值越大，关联性越强。

关联分析步骤

选出满足支持度最小的阈值的所有项集。即频繁项集。该阈值一般设为5%—10%。
从频繁项集中找出最小置信度的所有规则。置信度的阈值一般设置的比较高，如70%—90%。当然你要是想获取较多的关联规则，该阈值可以设置的较低。

apriori算法

arules包提供的apriori算法函数原型如下：

apriori(data, parameter = NULL, appearance = NULL, control = NULL)

现在来给大家介绍一下这些参数。

参数	作用
data	数据
parameter	参数可以是一个列表，可以对支持度，置信度，每个项集所含项数的最大值最小值，以及输出结果等重要参数进行设置
appearance	可以对先决条件X和关联条件Y中具体包含的那些项目进行限制。默认是没有限制的。
control	控制算法的性能，也可以进行排序和报告进程。

现在就来分析一下啤酒和尿布的案例，arules包含有一个Groceries的数据集，该数据集是某杂货店一个月的真实交易数据，我今天就有这份数据来看看啤酒和尿布的故事是不是都是大人们编出来骗我们的。

library(arules)
data("Groceries")

由于数据集中酒的种类比较多，有canned beer,bottled beer，wine等，所以我直接把尿布napkins作为后继。

rules<-apriori(Groceries,parameter = list(supp=0.001,conf=0.22), appearance = list(rhs="napkins",default="lhs"))

在不断调整支持度和置信度，最终调到0.001和0.22，结果还是比较理想的，如果再大一点，生成的频繁项集就会比较少，而且更重要的没有包含啤酒的的项集，如果再小一点，生成的项集又太多，但包含啤酒的项集也不是很多。此时支持度为0.001，置信度为0.22，总共有53个频繁项集，但只有一条包含啤酒的频繁项集。当把支持度或置信度再调大一点，就没有包含酒的频繁项。

现在使用arulesViz包对结果进行可视化

library(arulesViz) plot(rules)

啤酒和尿布的故事是真的吗

关联规则点的颜色深浅有提升度lift值得高低来决定的。
从图片中可以看到提升度高的，支持度比较低，置信度较高。

plot(x, method = NULL, measure = "support", shading = "lift", interactive = NULL, engine = "default", data = NULL, control = NULL, ...)

如果我们要查看每个点所代表的项集，可以使用参数interactive。这样绘制的图形是交互式的。点击inspect就可以获取选定点的详细信息，点击一个点，再点filter按钮，然后点击右侧颜色条，就可以将小于该关联规则lift的其他关联规则点都过滤掉。
当一块点比较密集时，可以选两个点构成一个矩形区域，再点击zoom in就可把该区域放大，点击zoom out就会缩小。点击end就是退出。可以看下面的演示图。

plot(rules, interactive=TRUE)

啤酒和尿布的故事是真的吗

这个包对结果的可视化效果还是很棒的，函数也提供了许多参数。下面是我简单绘制的，仅供“观赏”。

plot(rules6, method = "grouped")

啤酒和尿布的故事是真的吗

其中measure参数可以控制散点的大小和颜色。

plot(rules6, method = "grouped",measure = "lift")

啤酒和尿布的故事是真的吗

plot(rules6, method = "graph")

啤酒和尿布的故事是真的吗

还有其他参数，在用的时候可以再好好研究。

分析完之后我有种被骗的感觉，为什么会这样，53个频繁项集，但只有一条包含啤酒的频繁项集。也许关联最强的不用分析我们都知道，关联最强的也许就是常识，往往那些关联不太强且容易被忽视到的才是最值得我们去发现的。

退一步想想，也许因为该数据量太小，只有一个月的，另外，这是数据来自一个grocery，并不是像沃尔玛那种supermarket，而且这个杂货店也不一定是美国的。所以大家可以把这篇文章看做是一个关联算法的练习。更多看法咱们留言区见。

　大家都在看　

2017年R语言发展报告（国内）

精心整理 | R语言中文社区历史文章合集（作者篇）

啤酒和尿布的故事是真的吗

公众号后台回复关键字即可学习

回复爬虫         爬虫三大案例实战
回复 Python 1小时破冰入门

回复数据挖掘   R语言入门及数据挖掘
回复人工智能   三个月入门人工智能
回复数据分析师  数据分析师成长之路
回复机器学习      机器学习的商业应用
回复数据科学      数据科学实战
回复常用算法      常用数据挖掘算法

啤酒和尿布的故事是真的吗

关联规则

支持度

置信度

提升度

关联分析步骤

apriori算法

相关推荐