克林顿的竞选活动:机器学习和Java是否可以防止它们无法处理大数据?

实际上,克林顿的损失(以及我们无法对其进行预测)是数据的失败,也是人类无视偏见并无法准确地大规模,快速地分析数据的原因。 这凸显了当今政客和企业面临的最大挑战之一。 如此之多的数据收集和整理工作以前所未有的规模进行,震惊的美国大选提醒我们,该信息只有在可以被有效分析以产生能够为决策提供依据的切实可行的见解时才有用。

如果正确使用,机器学习(ML)和人工智能(AI)能够提供这些见解; 它提供了分析庞大数据集并识别由于任务的庞大规模而导致人类根本无法处理的关联的能力。 数据以及对数据进行处理的能力,将成为未来大公司越来越重要的差异化因素。 在我们的数字互联时代,即使是传统的制造企业,例如运动服专家耐克,现在也将自己定位为以数据为主导的公司。

不要相信所有的炒作

当然,关于机器学习及其如何成为几乎所有事物的未来解决方案的媒体炒作很多。 炒作未能解决的问题是,有效利用机器学习需要严格的科学技巧才能获得有意义的结果。 这可能是一项耗时,昂贵和复杂的操作,因为需要清理数据,试用方法并运行验证。

干净,无偏见的数据至关重要

有必要提醒自己,机器学习将永远与使用的数据一样好。 干净的数据至关重要。 此外,对于监督学习,需要对机器学习算法的准确性和精度进行分类,以使它有意义。

您只需要查看错误地预测了美国大选结果的民意测验员,就可以了解有偏见的数据有多有害。 他们未能确定几个主要州的白人中产阶级选民的影响[1]。

他们的致命错误反复发生,是将不完整的数据输入到分析算法中,从而导致洞察力出现偏差。

验证必不可少

任何机器学习仍然具有至关重要的人为因素。 任何算法都需要经过严格验证,以确保其正确运行。

现在,专家们发现,未经验证,洞察力有可能基于虚拟输出。 可以通过以下XKCD帖子推测出不正确的验证,其中很小的样本集和缺乏验证会导致…。 好吧,为自己读书!

克林顿的竞选活动:机器学习和Java是否可以防止它们无法处理大数据?

资料来源:https://xkcd.com/1122/

了解算法

Google,Microsoft和Amazon之类的公司经常使用Neural Nets,这对于正确的域来说是一种强大的方法,但是众所周知,它也很难验证。 Google的AI算法RankBrain可以解决新的搜索查询,进行“有根据的猜测”,现在是如此先进,以至于甚至一位高级Google工程师今年早些时候也承认他不知道它是如何工作的! [2]因此,尽管在实践中算法看似运行良好,但如果发生错误,可能会潜在地产生问题,因为不再可能了解算法的逻辑。

赢得人才大战

那么,IT行业如何应对挑战? 首先,有才能。 像“数据科学家”这样的工作在十年前还不存在,但对这些技能的需求却呈指数级增长。 搜索学术界以找到并聘用在方法上真正严格的最佳数据科学家,这必须是任何聘用策略的一部分。 这是一场人才争夺战,我们是希望吸引数据科学和具有数学思维的候选人的公司之一。

降低成本–出色的矫平机

如今,运行机器学习实验要便宜得多。 从历史上看,这一直是计算机和数据密集型活动。 成本一直在下降,因此像我们这样的精品公司可以负担得起使用机器学习的能力,而五年前的情况并非如此。 这已经在许多领域创建了很多使用ML的初创企业,这种趋势将持续很多年。

Java是如何融入方程式的?

Java的稳定基础架构在机器学习算法的输出中脱颖而出。 自1995年问世以来,Java一直是一种核心工具,用于从算法产生的数据中编写业务规则。 Java的长期商业使用和广泛采用已经创建了一个健壮的文档,库和框架生态系统,用于电子商务,安全性和复杂的事务体系结构。

今天,正是Java将我们连接到了地球上几乎所有的数据源。

利用Java和机器学习的力量

在jClarity,我们使用了这种最终的集成语言来编写来自机器学习结果的业务规则,从而为客户提供解决方案。 结果是快速可靠的数据分析。

我们为Rightmove这样的客户调整Java性能,该客户的网站每天都有数百万的访问量。 通过使用机器学习技术,我们能够使用智能,轻量级的性能分析工具帮助构建现代云的主要部分,从而使IT团队可以停止交火并为用户创造价值。

对于Rightmove,我们最近宣布的合作伙伴关系将改善其物业搜索应用程序的性能。 该物业站点将受益于拥有专业的Java性能诊断引擎,机器学习算法和Java增强的搜索应用程序。

强大的机器学习的关键要素是将重点放在您要解决的问题的足够狭窄的范围内。 媒体对AI机器人以及AI如何占领世界充满了抒情性。 机器学习远没有像人类一样是通用的问题解决者。 机器无法从数学问题切换为开门。

例如,泰勒·维根(Tyler Vigen)著名地建立了一个虚假相关性的站点[3]。 例如,您是否知道“缅因州的离婚率”和“人造黄油的人均消费量”之间有99%的相关性? 通过幽默,泰勒非常清楚地指出,要想出错误的答案非常容易,尤其是在相关性方面!

在JClarity,我们的成功取决于提供确保数据清理科学严谨的能力,运行大量实验的能力以及当然可以独立验证输出的验证。

听起来很简单,不是吗? 不是。 但这有效。

链接

1.http://www.tylervigen.com/spurious-correlations

2.https://www.seroundtable.com/google-dont-understand-rankbrain-21744.html

3.http://www.tylervigen.com/spurious-correlations


翻译自: https://jaxenter.com/clintons-campaign-machine-learning-java-prevented-failure-handle-big-data-130604.html