在正在运行的spark/hadoop集群中添加一个hdfs datanode

问题描述:


我有一个主节点和2个节点(worker + datanode)的spark集群。
我想添加另一个datanode。 的问题是,当我这样做hdfs dfs -setrep -R -w 2,结果是:在正在运行的spark/hadoop集群中添加一个hdfs datanode

1st datanode -> DFS Used%: 75.61% 
    2nd datanode -> DFS Used%: 66.78% 
    3rd datanode -> DFS Used%: 8.83% 

你知道该怎么做管理,以平衡在HDFS块为30 - > 33%,每个approximatly?

感谢

+0

您应该设置三个副本,以便使用所有三个datanodes。 –

运行balancer,集群平衡工具。这将重新平衡数据节点之间的数据。

hdfs balancer -threshold <threshold_value> 

-threshold确定的磁盘容量的百分比。缺省值为10.

这指定每个DataNode的磁盘使用量必须或应该调整到群集总体使用量的10%以内。

此过程可能需要更长的时间,具体取决于要平衡的数据量并且不会影响群集操作。

或者,如果添加其他节点,则执行Datanode Commissioning