大数据最佳学习路线总结

大数据最佳学习路线总结
一、题词

目前IT行业最糟糕的情况是什么?美国广播公司是错误的。所谓的ABC、Ai+大数据+云,也是人工智能、大数据和云计算(云平台)。每个行业的领导者都在引领潮流。今天我们要讨论的是大数据和大数据的方向。

二。在大数据中的作用,关注作者:需要大数据方面的视频资料,你会找到大神组织的

角色1:大型数据工程

大数据工程需要解决数据的定义、收集、计算和保存。因此,在设计和部署这样的系统时,大数据工程师考虑数据的高可用性,即,大数据工程系统需要实时地为下游业务系统或隔离系统提供数据服务;

角色二:大数据分析

大数据分析的作用是在从大型数据工程系统接收数据后向企业或组织提供数据分析。它确实有助于公司改善业务或提高其服务水平,因此对于许多分析家来说,他们是第一个SOLV。这就是问题所在。问题是发现和利用数据的价值,包括趋势分析、模型建立和预测分析。
大数据最佳学习路线总结

为什么这两个角色相互依赖,独立运作?没有大数据工程,大数据分析是不可能的,但没有大数据的分析,我真的不能思考大数据项目存在的原因。这与婚姻和爱情相似,爱的目的是为了结婚,不是为了爱情而结婚,而是为了和流氓一起玩。

总之,大数据工程角色需要考虑数据收集、计算(或处理)和保存;大数据分析角色是用于执行数据的高级计算。

三。大数据工程师

对于角色1:大数据工程,相应的工作被称为大型数据工程师,而对于大型数据工程师来说,你必须至少掌握以下技能:

Linux基金会

因为大型数据系统基本上是开源软件,所以它运行在开源Linux系统上,并且必须具有基本的Linux操作,如用户管理、权限、外壳编程等。

JVM语言:

目前,大数据生态系统的JVM比率非常大,在一定程度上不能垄断。在这里,我建议你学习java或Scala。至于Clojure,这种语言是不容易处理的。事实上,不建议大家使用。此外,今天是“母亲到孩子”的时代,一个大的数据框架将带来它的流行的编程语言,如码头和卡夫卡到Scala。

因此,建议您至少有一个JVM语言。值得一提的是,必须理解语言的多线程和内存模型,并且许多大数据框架实际上与语言级的多线程处理模型相似,但是大数据框架将它们扩展到多机分布式级别。
大数据最佳学习路线总结

建议:学习java或斯卡拉

计算处理框架:

严格来说,这被分为离线批处理和流式处理。流量处理是未来发展的趋势。建议大家都要学习。离线批量处理已经过时。批量处理的思想不能处理无限的数据集,因此其应用范围正在缩小。事实上,谷歌已经正式放弃了MapReduce在公司内部的离线处理。

因此,如果我们想学习大数据工程,就必须掌握一个实时流程处理框架。当前主流框架包括Apache SAMSA、Apache风暴、Apache SealFielFielts和近年来最受欢迎的Apache Fink。当然,Apache卡夫卡也推出了自己的流处理框架:卡夫卡流。

建议:学习Frank Linn,火花流或卡夫卡流之一。

分布式存储框架:

虽然MapReduce有点过时,但Hadoop和HDFs的另一基石仍然是强大的,并且是开源社区中最流行的分布式存储,并且您绝对需要时间来学习。

资源调度框架:
大数据最佳学习路线总结

码头,但在过去的一两年,这是一场大火。所有公司都致力于基于DOCKER的容器解决方案,最著名的开源容器调度框架是K8S,但同样著名的纱线和Apache MEOS也被称为Hadoop。后两者不仅可以调度容器集群,而且可以调度非容器集群。

分布式协调框架:

在所有主要的数据分发框架中都有通用的功能,如服务发现、领导选择、分布式锁和KV存储。这些功能也催生了分布式协同框架的发展。最古老最有名的一个