时下最热开源大数据技术TOP10
海外开发者Tim做了一个整理,小编最快速为大家呈现。(ps:不足之处,请来信指正,我的微信就在文章最下方)以下是十大热门开源的大数据技术:
1.Hadoop
特点高可用,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并运行关键的大数据服务和应用程序。
2.Spark
易使用、支持所有重要的大数据语言(Scala、Python、Java、R)。一个巨大的生态系统,迅速的发展,对microbatching/batching/SQL支持。另外,Spark能适用于数据挖掘与机器学习等MapReduce的算法
3.NiFi
美国国家安全局(NSA)给Apache基金会的开源项目。用最简单的数据摄取、存储和处理数据。两个特性是直接的Java代码编写极其强的用户界面和数据回溯工具。好似大数据工具箱中的瑞士军刀。
4.Apache Hive 2.1
Hive 是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换成MapReduce任务进行运行。优点就是学习成本低。最新版本的性能和功能都得到了全面提升,Hive已成为SQL在大数据上的最佳解决方案。
5.Kafka
Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。它已成为大数据系统在异步和分布式消息之间的最佳选择。从Spark到NiFi再到第三方插件工具以至于Java到Scala,都提供了强大的粘合作用。
6.Phoenix
是HBase的SQL驱动。因为很多公司的使用致使其规模不断扩大。HDFS支持的NoSQL能够很好地集成所有工具。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。
7.Zeppelin
提供交互数据分析且基于Web的笔记本工具。方便你做出可数据驱动的、可交互且可协作的图表,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。
8.Sparkling Water
H2O填补了Spark’s Machine Learning的缺口,满足所有机器学习。
9.Apache Beam
在Java中提供统一的数据进程管道开发,并且能够很好地支持Spark和Flink。提供很多在线框架,开发者无需学习太多框架。
10.Stanford CoreNLP
自然语言处理有越发的增长空间,斯坦福正继续努力增进他们的框架。
作者: 杨璐
来源:IT168
原文链接:时下最热开源大数据技术TOP10