集群问题复盘

1、服务端开发反馈,落hive表的spark-streaming任务,没有数据。

2、查看对应spark-streaming任务,发现任务进程仍在运行,但未消费到数据。

3、登录测试集群,准备测试生产和消费kafka数据看kafka是否正常。输入消费者命名,报错,zk拒绝连接。

集群问题复盘

 

4、zookeeper-server status 查看zk状态,有个节点宕机。

5、登录Ambari查看集群状态,很多服务都有问题,zk,kafka,spark。

6、尝试重启zk,报错:磁盘空间不足。

集群问题复盘

 

7.登录cluster119 机器,使用命令df -h 查看磁盘空间占用。

集群问题复盘

 

/dev/mapper/centos-root 被占满了。

8、du -d 1 -h /var/log 检查日志目录大小,总占用21G。其中/var/log/hadoop目录占用了11G,删除部分日志,再重启相关服务,启动正常。

du -sh /var/log 查看的是总目录大小。 du -d 1 -h /var/log 是查看目录下所有子目录的大小。

集群问题复盘

 

集群问题复盘

 

/dev/mapper/centos-root Linux 根目录爆满 :

cd 到根目录,cd / 使用du -h -x --max-depth=1  查看哪个目录占用过高,对于过高目录中的内容适当删减腾出一些空间.

集群问题复盘

 

9、ambari 启动zookeeper 权限不够:

集群问题复盘

 

原因是,使用了root账户启动了zk:

集群问题复盘

 

正确的权限如下:zookeeper用户

集群问题复盘

停止所有zk服务,使用ambari重启zk服务。

 

意外:发现cluster2拒接连接:

集群问题复盘

尝试在cluster2机器上使用zookeeper-server start 启动成功:原因未知。

集群问题复盘

10、应该做到定期清理日志,防止问题再次发生。