LEGION: Visually compare modeling techniques for regression

论文传送门

人们为医疗保健、金融、公共政策等不同领域的各种用例构建机器学习模型。这样做的目的是通过采用各种策略来提高模型的性能,例如改变输入数据(数据扩充)、调整模型超参数、执行包括特征提取、特征扩充或特征变换的特征工程。然而,用户如何知道这些模型构建策略中的哪一个用于他们的问题?遵循这些方法中的任何一种或所有方法都可以构建一个庞大的模型集,用户可以从中选择适合其数据分析任务的模型。模型选择的这个问题并不简单,因为在现实世界的用例中,许多表现最好的模型(与特定的度量相关)可能看起来是为用户的目标服务的,但是经常表现出细微差别和折衷(例如,可能不同地加权特征,不同的计算时间来训练,或者可能不同地预测相关的数据实例等)。本文旨在解决如何构建模型以及如何通过允许用户比较多元回归模型之间的异同来选择首选建模策略的问题,然后不仅了解模型,还了解他们的数据。这种学习进一步使他们能够选择更适合他们分析目标的模型。我们介绍了LEBOND,这是一个可视化的分析工具,可以帮助用户比较和选择通过调整超参数或特征工程构建的回归模型。我们还在真实数据集上展示了两个用例,验证了我们工具的实用性和有效性。

本文的贡献是:

  • 一个可视分析系统LEGION,允许用户比较使用超参数调整或特征工程方法构建的模型。
  • 真实数据集上的两个用例解释了该工具的实用性,并验证了LEGION在向用户展示模型权衡和底层数据方面的有效性。

LEGION: Visually compare modeling techniques for regression