集群问题复盘

1、服务端开发反馈，落hive表的spark-streaming任务，没有数据。

2、查看对应spark-streaming任务，发现任务进程仍在运行，但未消费到数据。

3、登录测试集群，准备测试生产和消费kafka数据看kafka是否正常。输入消费者命名，报错，zk拒绝连接。

集群问题复盘

4、zookeeper-server status 查看zk状态，有个节点宕机。

5、登录Ambari查看集群状态，很多服务都有问题，zk，kafka，spark。

6、尝试重启zk，报错：磁盘空间不足。

集群问题复盘

7.登录cluster119 机器，使用命令df -h 查看磁盘空间占用。

集群问题复盘

/dev/mapper/centos-root 被占满了。

8、du -d 1 -h /var/log 检查日志目录大小，总占用21G。其中/var/log/hadoop目录占用了11G,删除部分日志，再重启相关服务，启动正常。

du -sh /var/log 查看的是总目录大小。 du -d 1 -h /var/log 是查看目录下所有子目录的大小。

集群问题复盘

/dev/mapper/centos-root Linux 根目录爆满：

cd 到根目录，cd / 使用du -h -x --max-depth=1 查看哪个目录占用过高，对于过高目录中的内容适当删减腾出一些空间.

集群问题复盘

9、ambari 启动zookeeper 权限不够：

集群问题复盘

原因是，使用了root账户启动了zk：

集群问题复盘

正确的权限如下：zookeeper用户

集群问题复盘

停止所有zk服务，使用ambari重启zk服务。

意外：发现cluster2拒接连接:

集群问题复盘

尝试在cluster2机器上使用zookeeper-server start 启动成功：原因未知。

集群问题复盘

10、应该做到定期清理日志，防止问题再次发生。