向企业解释机器学习模型

可解释的机器学习是人工智能(AI)和机器学习的子学科,它试图总结机器学习系统如何做出决策。 总结机器学习系统如何做出决策可能有很多原因,例如查找数据驱动的见解,发现机器学习系统中的问题,促进法规遵从性以及使用户对(或让操作员能够撤消)不可避免的错误决策提出建议。

[ 也在InfoWorld上:2020年的人工智能预测 ]

当然,这听起来不错,但是可解释的机器学习还不是一门完美的科学。 现实是要牢记两个主要问题,它们是可解释的机器学习:

  1. 一些“黑匣子”机器学习系统可能太复杂而无法准确地概括。
  2. 即使对于被设计为可解释的机器学习系统,有时呈现摘要信息的方式对于商人来说仍然过于复杂。 (图1为数据科学家提供了机器学习说明的示例。)
向企业解释机器学习模型 过氧化氢

图1:由H2O无人驾驶AI创建的说明。 这些解释可能比业务用户更适合数据科学家。

对于问题1,我假设您要使用当今可用的多种“玻璃盒”准确且可解释的机器学习模型之一,例如开源框架h2o-3,LightGBM中的单调梯度增强机器和XGBoost。 1本文重点讨论问题2,并帮助您将可解释的机器学习结果清楚地传达给业务决策者。

本文分为两个主要部分。 第一部分介绍了机器学习系统和整个数据集的可解释的机器学习摘要(即“全局”解释)。 本文的第二部分讨论了有关数据集中特定人员的机器学习系统决策摘要(即“本地”说明)。 另外,我将使用有关预测信用卡付款的简单示例问题来提出具体示例。

一般总结

可变重要性图表和替代决策树是为整个一组数据集所代表的一组客户总结机器学习系统的两种好方法。 现在,因为我希望商务人士关心和理解我的结果,所以我将这两件事分别称为“主要驱动因素图”和“决策流程图”。

主要决策驱动力

通常,主驱动程序图表提供了直观的摘要,并列出了哪些因素对机器学习系统的决策最重要。 这是开始就机器学习系统如何工作进行交流的高级摘要和不错的地方。

在示例问题中,鉴于过去六个月的付款状态,付款金额和账单金额,我试图预测9月份的信用卡未付付款额。 图2告诉我的是,对于我构建的机器学习系统而言,对于我的数据集中的大多数客户而言,上个月的还款状态到目前为止是最重要的因素。 我还可以看到,7月和6月的还款状态是下一个最重要的因素。

向企业解释机器学习模型 过氧化氢

图2:整个9月信用卡客户数据集有关9月缺少信用卡付款的模型决策的主要驱动力。

我如何制作此图表? 它只是传统可变重要性图表的略微修改版本。 为了确保所显示的信息尽可能准确,我选择了一个可解释的模型,并将其与可靠的变量重要性计算相匹配。 2

当我知道我的结果在数学上是可靠的时,我会考虑演示。 在这种情况下,首先我从该图表中删除了所有数字。 尽管数值重要性重要性对数据科学家而言可能是有意义的,但大多数商人没有时间去关心与他们的业务无关的数字。 我还用直接有意义的数据标签替换了原始变量名称,因为没有业务人员真正想考虑我的数据库模式。

将系统总结为易于理解的图表后,我可以去找业务合作伙伴,问一些非常重要的问题,例如:我的系统是否过于强调8月的还款状态? 或者,将四月份的付款金额加权为八月份的付款金额有意义吗? 以我的经验,在我的机器学习系统中考虑这些领域知识的见解会带来最佳的技术和业务成果。

决策流程图

决策流程图显示了预测因素如何共同驱动我的机器学习系统中的决策,图3将整个机器学习系统简化为一个流程图!

向企业解释机器学习模型 过氧化氢

图3:流程图大致显示了复杂模型如何针对整个信用卡客户数据集在9月份做出有关丢失信用卡付款的决策。

[ 也在InfoWorld上:深度学习与机器学习:了解差异 ]

我如何将整个机器学习系统总结为流程图? 我使用了一种称为代理模型的旧数据挖掘技巧。 3代理模型是复杂模型的简单模型。 在这种情况下,我的简单模型是决策树或数据派生的流程图,而我的复杂模型是机器学习系统的输入因素和决策。 因此,决策流程图就是简单的机器学习,而不是更复杂的机器学习。

不幸的是,这种技巧不能保证每次都能奏效。 有时,机器学习系统过于复杂,无法用简单的模型准确表示。 因此,在创建如图3所示的图表时,对于数据科学家来说,一个关键的考虑因素是:我的决策树代理模型的准确性和稳定性如何? 在业务方面,如果数据科学家为您显示如图3所示的图表,则应挑战他们以证明它是机器学习系统的准确和稳定的表示。

如果要制定决策流程图,请记住尝试限制底层机器学习系统的复杂性,将流程图的深度保持在三到五个决策范围内(图3使用三个深度),可读的数据格式,而不是您喜欢的标签编码器。

具体摘要

如果您从事金融服务,则可能会发现有时必须解释或总结针对每个客户的每个机器学习系统决策。 对于其余的数据科学世界,解释单个机器学习系统的决策可能不是监管要求,但我认为这是最佳实践。 而且法规可能会出台。 为什么不准备呢? 4

没人希望被告知“计算机说不”,尤其是在计算机出现故障时。 因此,消费者级别的解释对于可能希望覆盖或调试不良机器学习行为的数据科学家,以及对于应该能够提出对他们产生负面影响的错误决定的消费者来说,非常重要。

我将专注于两种类型的解释,它们总结了针对特定人员的机器学习系统决策,即Shapley值(如图2所示)和反事实性解释。 由于数据科学术语在这种情况下无济于事,因此,我将把这两种方法称为主要的决策驱动力(再次)和“反例”。 另外,请记住,还有许多其他选项可用于创建针对特定消费者的说明。

主要决策驱动力

Shapley值可用于总结整个数据集(图2)或单个决策级别(图4)的机器学习系统。 当您使用正确的基础机器学习和Shapley算法时,这些单独的摘要可能非常准确。 2

我认为大多数数据科学家对Shapley价值观的理解是在向业务合作伙伴进行解释。 我的建议是永远不要使用方程式,也不要使用图表或表格。 只需用普通英语(或您喜欢的任何语言)写出优美的Shapley值解释。 要查看这种方法的实际效果,请查看图4。它显示了三个最重要的决定因素,这些因素决定了我的机器学习系统认为错过9月份付款的风险高于平均水平。

在9月份,该特定客户的拖欠付款风险高于平均水平,这三大驱动因素是:

  1. 该客户延迟了八月份的付款。
  2. 该客户延迟了他们的七月份付款。
  3. 该客户的三月份付款迟到了。
图4:有关9月缺少一位特定客户付款的模型决策的三大驱动因素。

反例

反例说明了客户可以采取哪些不同的措施来从机器学习系统中获得不同的结果。 有时,您可以使用软件库5创建反例,也可以使用反复试验,更改机器学习系统的输入并观察系统输出中的变化来创建自己的反例。 事实证明,对于图5中描绘的高风险客户,如果他们按时付款,而不是迟到,我的机器学习系统会将他们错过即将到来的9月付款的风险大大降低。

如果该客户按时支付8月和7月的付款,则认为9月付款延迟的风险要低得多。

图5:一个反例,说明9月份某个特定客户没有付款。

一旦您看到了机器学习系统如何做出给定决策的逻辑和数据点,数据科学家就可以更轻松地捕获和修复不良数据或错误的决策。 与机器学习系统进行交互的客户也可以更轻松地捕获和吸引相同类型的错误数据或决策。

这些解释也可能有助于遵守法规,例如美国的《平等信用机会法》(ECOA)和《公平信用报告法》(FCRA),以及欧盟的《通用数据保护条例》(GDPR)。

负责任的机器学习

依赖于您不了解的系统的无数风险是在商业世界中采用AI和机器学习的主要障碍。 当您可以打破这些障碍时,这是向前迈出的一大步。 希望您会发现我在这里介绍的技术仅对此有用,但请务必小心。 除了我已经提到的准确性和通信问题之外,可解释的ML还涉及一些安全性和隐私问题。 6

[ 通过InfoWorld的机器学习和分析报告时事通讯来了解机器学习,人工智能和大数据分析的最新进展 ]

另外,可解释性只是减轻机器学习风险的一部分。 7机器学习系统可能是完全透明的,仍然会歧视某些特定人群,或者当部署到使用实际数据进行决策时,可能既透明又非常不稳定。 由于这些原因以及更多原因,在为机器学习系统添加白板时,最好考虑隐私,安全和歧视风险,而不仅仅是GPU和Python代码。

所有这些使我进入了负责任的机器学习实践,但这对于我的下一篇文章值得深思。 可以说,在当今数据驱动的世界中,所有数据科学家都必须传达机器学习系统的成果,并且通过正确的方法和正确的技术向业务决策者解释AI和机器学习的可能性越来越大。

帕特里克·霍尔(Patrick Hall)是H2o.ai的数据科学产品高级总监,主要致力于模型的可解释性。 帕特里克(Patrick)现在还是乔治华盛顿大学(George Washington University)决策科学系的兼职教授,他在那里教授数据挖掘和机器学习的研究生课程。 在加入H2o.ai之前,Patrick在SAS Institute担任全球面向客户的角色和研发角色。

-

1.可解释模型的其他出色选择包括弹性网回归 ,可解释神经网络 (XNN), GA 2M可证明的最佳规则列表 (CORELS)。

2.我建议使用单调梯度增强机以及TreeSHAP来生成准确的摘要。

3.决策树替代至少可以追溯到1996年 ,但是近年来也提出了替代方法

4.至少加拿大德国荷兰新加坡英国美国的政府已经提出或制定了针对ML的法规指南。

5.像聪明人傻瓜

6.通过向基于ML的决策的消费者提供解释和预测, 通常会加剧 模型提取反演攻击以及隶属推断攻击的风险。

7.有关负责任的机器学习的更全面的技术讨论,请参阅:“ 负责任的机器学习工作流程”

From: https://www.infoworld.com/article/3533369/explaining-machine-learning-models-to-the-business.html