mapReduce中重要参数调优

现在我们来假设一个集群有一个namenode以及8个datanode，这是一个很客观的集群。我们假设上面的数据都是三备份，那么本地数据率为3/8。首先数据要进行map，然后merge，然后reduce进程进行copy，最后进行reduce，其中的merge和copy总称可以为shuffle。在你起一个job前，hadoop需要知道你要启动多少个map，多少个renduce进程，如果你进行默认参数启动，那么默认只有一个map线程。这个速度是很慢的。设置map启动个数的参数是mapred.map.tasks，reduce则是mapred.reduce.tasks。这两个参数可以说是对整个集群的性能起主导型作用的参数，调试也基本上围绕这两个参数。那大家要问就两个参数有什么好来回修改的呢？其实，这两个参数的设置配比也直接影响到其他的参数的设置。首当其冲的就是mapred.tasktracker.map.tasks.maximum 以及 mapred.tasktracker.reduce.tasks.maximum。因为这两个参数设置了一台服务器上最多能同时运行的map和reduce数。

mapReduce中重要参数调优

mapReduce中重要参数调优

相关推荐