1.编写代码

目录结构：

windows idea中用scala操作本地spark，hadoop，及打包成jar 详细步骤

Ts的代码：

val conf = new SparkConf().setAppName("Ts").setMaster("local[1]")
//创建spark执行的入口
val sc = new SparkContext(conf)

//指定以后从哪里读取数据创建RDD
//val lines: RDD[String] = sc.textFile("D:/test.txt") 从本地目录读取文件
//我们从本地hdfs读取文件
val lines: RDD[String] = sc.textFile("hdfs://localhost:9000/user/spark")
val lines: RDD[String] = sc.textFile(args(0))
val words: RDD[String]=lines.flatMap(_.split(" "))
val word: RDD[(String,Int)]=words.map((_,1))

//word.saveAsTextFile("C:/sparkdata/out") 将结果保存到本地目录
//将结果保存到本地hdfs
word.saveAsTextFile("hdfs://localhost:9000/user/output")
//释放资源
sc.stop()

2.运行hadoop集群

windows idea中用scala操作本地spark，hadoop，及打包成jar 详细步骤

上传文件，windows上查看结果：

windows idea中用scala操作本地spark，hadoop，及打包成jar 详细步骤

具体如何上传文件，参考 https://blog.****.net/****_dengfan/article/details/88375313

3.执行程序，查看结果

windows idea中用scala操作本地spark，hadoop，及打包成jar 详细步骤

成功。

4.将项目打包成jar，上传到linux中执行。

1.修改项目代码：将本地hdfs路径去掉

//spark主机改为linux上的主机
val conf = new SparkConf().setAppName("Ts").setMaster("spark://node2:7077")
val sc = new SparkContext(conf)
//指定以后从哪里读取数据创建RDD，从args(0)指定位置读取数据
val lines: RDD[String] = sc.textFile(args(0))
val words: RDD[String]=lines.flatMap(_.split(" "))
val word: RDD[(String,Int)]=words.map((_,1))
//将结果保存到args(1)参数指定位置
word.saveAsTextFile(args(1))
//释放资源
sc.stop()

2.打包

Idea界面，点击 File->Project Structre,得到下图界面

windows idea中用scala操作本地spark，hadoop，及打包成jar 详细步骤