星火MLLIB并行多个节点

问题描述:

可以加工成学习由“火花mllib”像天真轮空,在跨过火花集群并行模式随机森林运行提供算法?或者我们需要更改代码?请提供一个并行运行的例子吗?不确定MLLIB中的并行性如何工作(地图) - 因为每个处理都需要整个训练数据集。计算是否与训练数据的子集并行运行? 由于星火MLLIB并行多个节点

Spark MLLib提供这些算法不平行自动运行。他们期望RDD作为输入。 RDD是一个弹性分布式数据集,分布在一组计算机上。

Here是使用决策树分类问题的示例的问题。

我强烈建议在深入探索link provided above。该页面包含大量文档以及如何对这些算法进行编码的示例,包括生成培训和测试数据集,计分,交叉验证等。

这些算法通过对工作节点的数据子集运行计算并行运行,然后在工作节点和主节点之间共享这些计算的结果。主节点收集单个计算的结果并根据需要对它们进行汇总,以根据整个数据集做出决策。计算繁重的活动主要在工作节点上执行。