相比于手动搭建集群,使用Ambari或者CDH的必要性

1. Ambari简介

Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。

Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5个*hadoop管理工具之一。Ambari能够安装安全的(基于Kerberos)Hadoop集群,以此实现了对Hadoop 安全的支持,提供了基于角色的用户认证、授权和审计功能,并为用户管理集成了LDAP和Active Directory。

2. CDH简介 

• Cloudera's Distribution, including Apache Hadoop
• 是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建
• 提供了Hadoop的核心
– 可扩展存储
– 分布式计算
• 基于Web的用户界面

相比于手动搭建集群,使用Ambari或者CDH的必要性

CDH的优点  

• 版本划分清晰
• 版本更新速度快
• 支持Kerberos安全认证
• 文档清晰
• 支持多种安装方式(Cloudera Manager方式

3. 手动方式与使用工具的比较

• 1000台服务器的集群,最少要花费多长时间来搭建好Hadoop集群,包括Hive、Hbase、Flume、Kafka、Spark等等
• 只给你一天时间,完成以上工作?
• 对于以上集群进行hadoop版本升级,你会选择什么升级方案,最少要花费多长时间?

• 新版本的Hadoop,与Hive、Hbase、Flume、Kafka、Spark等等兼容?

大数据集群管理方式分为手工方式(Apache hadoop)和工具方式(Ambari + hdp 和Cloudera Manger + CDH)

手工部署呢,需配置太多参数,但是,好理解其原理,建议初学这样做,能学到很多。该方式啊,均得由用户执行,细节太多,切当设计多个组件时,用户须自己解决组件间版本兼容问题。

工具部署呢,比如Ambari或Cloudera Manger。(当前两大最主流的集群管理工具,前者是Hortonworks公司,后者是Cloudera公司)使用工具来,可以说是一键操作,难点都在工具Ambari或Cloudera Manger本身部署上。

手工方式和工具方式比较:

相比于手动搭建集群,使用Ambari或者CDH的必要性

4. Cloudera Manager与Ambari的比较

相比于手动搭建集群,使用Ambari或者CDH的必要性

详细对比情况如下:

4.1. 出版商

hortonworks研发了Ambari和hdp的大数据分析集成平台
cloudera研发了cloudera manger和cdh大数据分析集成平台


4.2. 稳定性

cloudera相对来说比较稳定
ambari相对来说不稳定(页面打开速度慢)


4.3. 资源消耗

cloudera manager的server端Xmx是2G,agent是1G,但是有host monitor和service monitor总共大概1G
ambari的server端Xmx是2G,metric的ams和hbase的env大概也就是2G


4.4 集群重启

cloudera支持滚动重启(hdfs需要设计成ha,才能滚动重启)
ambari支持滚动重启(hdfs需要设计成ha,才能滚动重启)


4.5. 二次开发

cloudera不支持
ambari支持


4.6. 服务版本

cloudera较老
ambari较新


4.7. 服务集成性

cloudera较弱
ambari较强,支持es、redis、presto、kylin等


4.8. 体验效果

cloudera好
ambari相对差


4.9. 安装过程

cloudera复杂
ambari简单


4.10. 邮件报警

cloudera支持不好
ambari支持很好


4.11. 安装包

cloudera是parcel包
ambari是rpm包

4.12. 集群升级(一般来讲不要轻易升级集群)

cloudera不支持滚动升级服务

ambari支持滚动升级服务(这个是ambari的优点,hdfs必须是ha)