在正在运行的spark/hadoop集群中添加一个hdfs datanode

问题描述：

我有一个主节点和2个节点（worker + datanode）的spark集群。
我想添加另一个datanode。的问题是，当我这样做hdfs dfs -setrep -R -w 2，结果是：在正在运行的spark/hadoop集群中添加一个hdfs datanode

1st datanode -> DFS Used%: 75.61% 
    2nd datanode -> DFS Used%: 66.78% 
    3rd datanode -> DFS Used%: 8.83%

你知道该怎么做管理，以平衡在HDFS块为30 - > 33％，每个approximatly？

感谢

您应该设置三个副本，以便使用所有三个datanodes。 –

答

运行balancer，集群平衡工具。这将重新平衡数据节点之间的数据。

hdfs balancer -threshold <threshold_value>

-threshold确定的磁盘容量的百分比。缺省值为10.

这指定每个DataNode的磁盘使用量必须或应该调整到群集总体使用量的10％以内。

此过程可能需要更长的时间，具体取决于要平衡的数据量并且不会影响群集操作。

或者，如果添加其他节点，则执行Datanode Commissioning。