集群问题复盘
1、服务端开发反馈,落hive表的spark-streaming任务,没有数据。
2、查看对应spark-streaming任务,发现任务进程仍在运行,但未消费到数据。
3、登录测试集群,准备测试生产和消费kafka数据看kafka是否正常。输入消费者命名,报错,zk拒绝连接。
4、zookeeper-server status 查看zk状态,有个节点宕机。
5、登录Ambari查看集群状态,很多服务都有问题,zk,kafka,spark。
6、尝试重启zk,报错:磁盘空间不足。
7.登录cluster119 机器,使用命令df -h 查看磁盘空间占用。
/dev/mapper/centos-root 被占满了。
8、du -d 1 -h /var/log 检查日志目录大小,总占用21G。其中/var/log/hadoop目录占用了11G,删除部分日志,再重启相关服务,启动正常。
du -sh /var/log 查看的是总目录大小。 du -d 1 -h /var/log 是查看目录下所有子目录的大小。
/dev/mapper/centos-root Linux 根目录爆满 :
cd 到根目录,cd / 使用du -h -x --max-depth=1 查看哪个目录占用过高,对于过高目录中的内容适当删减腾出一些空间.
9、ambari 启动zookeeper 权限不够:
原因是,使用了root账户启动了zk:
正确的权限如下:zookeeper用户
停止所有zk服务,使用ambari重启zk服务。
意外:发现cluster2拒接连接:
尝试在cluster2机器上使用zookeeper-server start 启动成功:原因未知。
10、应该做到定期清理日志,防止问题再次发生。