Uber最新开源Manifold,助力机器学习开发者的可视化与调试需求
所有参与投票的 CSDN 用户都参加抽奖活动
群内公布奖项,还有更多福利赠送
作者 | Lezhi Li
译者 | 凯隐
编辑 | Jane
出品 | AI科技大本营(ID:rgznai100)
【导语】2019 年 1 月,Uber 推出了 Manifold,一款与模型无关的机器学习可视化调试工具,可以用来识别 ML 模型中存在的问题。为了让其他 ML 实践者也能从这个工具中获益,近日,Uber 宣布将 Manifold 作为一个开源项目发布。今天,AI科技大本营(ID:rgznai100)就为各位开发者朋友们介绍这一开源工具的新情况。
Manifold简介
Manifold 可帮助工程师和科学家通过 ML 数据片和模型可视化来识别模型性能问题,并通过分析数据子集间的特征分布差异来诊断其根本原因。在 Uber 内部,Manifold 已经成为机器学习平台 Michelangelo 的组成部分,并且已经帮助 Uber 的各个产品团队分析和调试 ML 模型的性能。
此前,Uber 官方博客上重点介绍这个项目后,Uber 不断从社区中收到了许多关于 Manifold 在通用 ML 模型调试场景中潜在能力的反馈,因此在开源 Manifold 的独立版本中,相信它也能通过为 ML 工作流提供可解释性和可调试性这一特性使 ML 社区受益。
开源后第一版中的新特性
在 Manifold 的第一个开源版本中,Uber 官方为其添加了多个新特性,使模型调试比内部迭代更加容易。
版本 1 中的特性有:
1、支持通用的二分类和回归模型调试。用户可以通过分析和对比使用各种不同算法的模型,来辨别不同数据切片带来的性能差异。
2、可视化支持表格特征输入,包括数值,分类,以及地理空间类型特征。利用每个数据切片的特征值分布信息,用户可以更好地了解某些性能问题的潜在原因,例如模型模型的预测损失是否与数据点的地理位置和分布存在相关性。
图1、Manifold新功能,支持对地理空间特征的可视化
3、集成在Jupyter Notebook中。通过集成在 Notebook 中,Manifold 可以接收 Pandas Dataframe 对象作为数据输入,并在 Notebook 内部进行数据可视化。Jupyter Notebook 是数据科学家和 ML 工程师使用最广泛的数据科学平台之一,因此这种集成可以让用户在不影响正常工作流程的情况下用 Manifold 分析他们的模型。
图2、Manifold 集成在 Jupyter Notebook 中,接受 Pandas DataFrame 对象数据为输入,并在 Jupyter Notebook UI 中呈现可视化效果
4、基于单样本预测损失和其他特性值的交互式数据切片和性能比较。用户将能够根据预测损失、标签或其他感兴趣的特征值对数据进行切片和查询。此功能将使用户能够通过灵活的数据切片逻辑快速验证或否定他们的假设。
图3、基于单样本的预测损失和其他特征值的交互式数据切片,让用户能更好的理解ML模型的性能问题
开始使用Manifold
Manifold 的开源版本提供了一个 npm 包版本,对于 Jupyter Notebook 绑定,则提供一个Python 版本。要开始使用,请遵循 github repo 中的文档并在本地安装它,或者查看我们的演示网站。我们鼓励您对 Manifold 进行个人尝试,并期待收到您的反馈!
原文链接:
https://eng.uber.com/manifold-open-source/
(*本文为AI科技大本营编译文章,转载请微信联系1092722531)
◆
精彩推荐
◆
2020年,由 CSDN 主办的「Python开发者日」活动(Python Day)正式启动。我们将与 PyCon 官方授权的 PyCon中国社区合作,联手顶尖企业、行业与技术专家,通过精彩的技术干货内容、有趣多元化的活动等诸多体验,共同为中国 IT 技术开发者搭建专业、开放的技术交流与成长的家园。未来,我们和中国万千开发者一起分享技术、践行技术,铸就中国原创技术力量。
【Python Day——北京站】现已正式启动,「新春早鸟票」火热开抢!2020年,我们还将在全国多个城市举办巡回活动,敬请期待!
活动咨询,可扫描下方二维码加入官方交流群~
CSDN「Python Day」咨询群 ????
来~一起聊聊Python
如果群满100人,无法自动进入,可添加会议小助手微信:婷婷,151 0101 4297(电话同微信)
推荐阅读
170个新项目,579个活跃代码仓库,Facebook开源年度回顾
滴滴章文嵩:一个人的20年开源热情和国内互联网开源运动
掌握 8 种语言、被阿里点赞,这名德国程序员简直开挂了!
为什么 k8s 在阿里能成功?| 问底中国 IT 技术演进
K8s 实践 | 如何解决多租户集群的安全隔离问题?
你点的每个“在看”,我都认真当成了AI