十七:CDH介绍及官网信息

一:背景:

1.1在部署Apache Hadoop 及周边软件时,随时不是这个启动不了,就是这里哪里有问题:主要表现在:

• 版本管理混乱
  • 部署过程繁琐、升级过程复杂
  • 兼容性差
  • 安全性低

1.2 、社区版本与第三方发行版本的比较

1.Apache社区版本
优点:
完全开源免费。
社区活跃
文档、资料详实
缺点:
----复杂的版本管理。版本管理比较混乱的,各种版本层出不穷,让很多使用者不知所措。
----复杂的集群部署、安装、配置。通常按照集群需要编写大量的配置文件,分发到每一台节点上,容易出错,效率低下。
----复杂的集群运维。对集群的监控,运维,需要安装第三方的其他软件,如ganglia,nagois等,运维难度较大。
----复杂的生态环境。在Hadoop生态圈中,组件的选择、使用,比如Hive,Mahout,Sqoop,Flume,Spark,Oozie等等,需要大量考虑兼容性的问题,版本是否兼容,组件是否有冲突,编译是否能通过等。经常会浪费大量的时间去编译组件,解决版本冲突问题。

2.第三方发行版本(如CDH,HDP,MapR等)
优点:
----基于Apache协议,100%开源。
----版本管理清晰。比如Cloudera,CDH1,CDH2,CDH3,CDH4等,后面加上补丁版本,如CDH4.1.0 patch level 923.142,表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch。
----比Apache Hadoop在兼容性、安全性、稳定性上有增强。第三方发行版通常都经过了大量的测试验证,有众多部署实例,大量的运行到各种生产环境。
----版本更新快。通常情况,比如CDH每个季度会有一个update,每一年会有一个release。
----基于稳定版本Apache Hadoop,并应用了最新Bug修复或Feature的patch
----提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时内部署好集群。
----运维简单。提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单,有效。

缺点:
----涉及到厂商锁定的问题。(可以通过技术解决)

二:CDH https://www.cloudera.com/downloads/manager/6-1-0.html

在国内厂商中,CDH使用最多:其中主要有CDH和HDP合并后,官方支持CDH5/6支持到2022年;
目前主要有三个版本:免费版本,收费版本免费60天,收费版本:

收费版本提供7x24小时技术支持,提供版本回滚。
免费版本已经足够用,没必要使用收费版本。
CDH5 目前比较稳定:怎么选择自己需要的版本,
十七:CDH介绍及官网信息

三:CDH官网文档:https://www.cloudera.com/documentation.html

通过如下入口,选择自己版本的文档:
十七:CDH介绍及官网信息
依据如下文档配置自己CDH:
https://www.cloudera.com/documentation/enterprise/5-14-x.html