R语言Spark大数据分析/可视化环境配置/部署教程(sparklyr、hadoop)

R软件本身软件可以处理的数据量其实对于一些喜欢用R处理数据的有一些局限性,但是R现在也可以部署大数据环境,过程虽然比较艰辛,但结果是安逸的。

 

最开始我们需要下载配置环境,配置环境小编把分为两部分:

1、外部环境配置文件(java、spark);2、Rstudio中配置

1.1 java下载、安装,选择适合你系统的就可以; 

R语言Spark大数据分析/可视化环境配置/部署教程(sparklyr、hadoop)

1.2安装好java后我们需要做的一件重要的事就是系统环境变量配置,至关重要的点就是这里

R语言Spark大数据分析/可视化环境配置/部署教程(sparklyr、hadoop)

1.3在这个系统变量中添加java_home变量,它的值为jdk文件的根路径,如截图中的java_home 

R语言Spark大数据分析/可视化环境配置/部署教程(sparklyr、hadoop)

1.4在 在这个系统变量中双击打开path变量,在编辑环境变量中添加jdk、jre的路径

R语言Spark大数据分析/可视化环境配置/部署教程(sparklyr、hadoop)

1.5 配置完成后,打开电脑命令窗口,就是win+r,输入cmd回车,在命令窗口分别输入java、java若都有返回即可

1.6 spark下载,下载完成后配置spark所需系统环境,spark配置系统环境变量与java类似,同样需要添加spark_home变量,在path中加入环境变量,但并不是你的spark文件路径,而是%SPARK_HOME%\bin,这样外部环境就算是配置完成。

2.1 Rstudio内部环境,这里面了,先点击窗口中的connections,添加,选择spark,可以根据提示进行,但是这样容易报错,建议是把相关包加载后进行,相关的包如:sparklyr、shiny、rjava,这个里面有些包是在安装R后部署这个环境缺的,所以每个人缺的可能会不一样。

 

小编完成后的画面如下:

R语言Spark大数据分析/可视化环境配置/部署教程(sparklyr、hadoop)

有什么问题一起来解决哈,let's go