在hadoop和mapreduce上运行R脚本

问题描述:

我有一个R脚本,它用一堆tweets做东西,我想对同一个数据使用相同的脚本,但保存在Hadoop文件系统中。根据this Hortonworks教程,我可以使用R代码和我的HDFS中的数据,但它不是很清楚。在hadoop和mapreduce上运行R脚本

通过使用这个Revolution R,我可以使用非常相同的R脚本,利用mapreduce范例吗?我应该改变我的代码还是有办法执行为Hadoop体系结构优化的相同功能? 我的愿望是将我的代码写在R-Studio等标准R IDE上,然后在我的云服务(例如Microsoft Azure)上使用它,或者使用它的大部分,并在基础上使用mapreduce。

+0

我们就需要更多地了解你的脚本 - 很多的文本分析只是分裂和计算,这相对容易并行,但其他操作可能相当困难。 –

是的,您可以使用特定于环境的计算上下文,跨Hadoop到Spark的不同数据平台运行任何R脚本到Teradata和SQL Server。

以下两个链接应该帮助你开始了解如何在Hadoop的使用革命R /微软R服务器:

https://msdn.microsoft.com/en-us/microsoft-r/scaler-hadoop-getting-started

https://github.com/Azure/Azure-MachineLearning-DataScience/blob/master/Misc/MicrosoftR/Samples/NYCTaxi/NYC2013_MRS_LinearBinary.Rmd