「译」企业发展数据科学的4大挑战

欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!

对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tsaiedu,并注明消息来源,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。


作者:Nick Elprin

来源:KDnuggets

参与:Cynthia

翻译:本文为天善智能编译,未经容许,禁止转载

「译」企业发展数据科学的4大挑战

这是当今企业的困境之一:数据科学是创新的关键因素这一点很容易理解,但很少有企业知道如何将持续地数据科学输出转化为业务价值。60%的公司计划在2018年将数据科学团队的规模扩大一倍。90%认为数据科学有助于商业创新。然而,只有不到9%的企业能够实际量化他们所有模型的业务影响,只有11%能够声称有50个以上的预测模型正在工作生产之中。这一数据来源于最近对250多名数据科学领导者和从业者的调查。

这一断层的根源是什么?因为在将数据科学视为一种技术实践的企业和那些进一步将数据科学视为贯穿整个业务结构的组织能力的企业之间存在着一道分歧。那些已经掌握了嵌入算法驱动决策的技术和管理实践的公司正在收获最大的回报。它们甚至可以被认为是“由模型驱动的”(例如Amazon,Netflix,Stitch Fix 和Tesla)。

1.知识储量

雇佣数据科学家并不能保证你的企业会从数据科学中获利。对于大多数公司来说,仅仅在团队里增加数据科学家的人数并不会提升与以前的数据科学家相同的产出——你的回报会递减,而不是像高功能的数据科学团队那样获得指数式增长的回报。在单独的笔记本电脑上或其他模拟环境中工作的数据科学家经常重复工作。他们不知道其他人已经做了什么能使他们从中受益工作。例如,一家大型保险公司有几十位科学家在就相同的商业问题上以不协调的方式工作——将会导致投资损失和错失良机。换句话说,拥有一个创建模型的个体的集合和拥有一个能够利用其集体知识、技能和过去的工作的动态团队协作构建更好更快的模型和更快的价值之间是有区别的。

2. 模型部署时的摩擦

运行良好的数据科学团队会在一个连续的、迭代的生命周期内运行——从研究到生产,再回到研究的循环——并测量模型在生产中的影响。不幸的是,研究过程通常与模型部署过程完全分离,并在部署模型时没有与业务影响的链接。这样的企业将很可能无法通过迭代来改进它们的模型,更糟的是,无法度量其模型的业务影响。一家大型金融服务公司表示,他们“把一个模型投入生产所用的时间比建设他们的新总部还多。”

3.工具与技术不匹配

IT部门在过去的十多年中致力于建立一个大数据基础设施来支持数据存储和处理,但是这些基础设施并不一定能够支持数据科学。 数据科学家可以每月使用多达3-5个不同的工具或包,且不断地利用更新的软件包。2017年,单单最常用的开源编程语言Pthon就有超过 365,000 个更新!此外,数据科学工作要求获得弹性计算来执行特定的实验,比如需要有gpu的强大机器的深度学习。 缺乏弹性计算和最新的工具会限制了团队的敏捷性,限制了研究的速度,并导致了开发的延迟。更糟糕的是,有时会形成影子it,就像一家大型全球性银行的情况一样,因为它花了太长时间才批准新的Python包,数据科学家们最终把他们的个人笔记本电脑带到工作中,并偷偷地使用它们。

4.模型可靠性

没有适当的管理,生产中的模型可能弊大于利。如果你正在积极地管理生产中的模型,那么你可能已经意识到了这一点。不被严密监控或主动控制的模型会对企业造成严重损害,如合规失败、收入损失、品牌受损或是声誉受损。例如,奈特资本集团(Knight Capital Group)在更新模型出现错误后的45分钟内损失了4.4亿美元。这是一个极端的例子,但是,企业必须不断地验证和监控他们的模型,以防止误用和性能下降。

用数据科学取得成功并不容易。有一些重大的障碍必须克服。但最终,那些解决了难题的人——找到了如何在规模上开发和部署,以及用数据科学真正的工具来衡量他们的业务——更有能力利用它们在长期内获得竞争优势。


原文地址:https://www.kdnuggets.com/2018/05/data-science-4-reasons-failing-deliver.html