Spark wordcount入门

1.下载最新版的scala for eclipse版本,选择windows 64位,下载网址: 
然后创建一个测试项目ScalaDev,右击项目选择Properties,在对话框中选择Scala Compiler,在右面页签中勾选Use Project Settings和Scala Installation点击ok,保存配置。 
右击ScalaDev项目选择Build Path->Configure Build Path 

注:如果你选择了Scala Installation为Latest2.11 bundle(dynamic)项目会报如下的错误:ScalaDev工程上出现一个红叉,查看Problems下面的原因是scala编译版本和spark的不一致导致。 
More than one scala library found in the build path (D:/eclipse/plugins/org.scala-lang.scala-library_2.11.7.v20150622-112736-1fbce4612c.jar, F:/IMF/Big_Data_Software/spark-1.6.0-bin-hadoop2.6/lib/spark-assembly-1.6.0-hadoop2.6.0.jar).At least one has an incompatible version. Please update the project build path so it contains only one compatible scala library. 

解决方法:右击Scala Library Container->Properties,在弹出框中选择Latest 2.10 bundle(dynamic),保存即可。 

选择项目New -> Package创建com.imf.spark包; 

选择com.imf.spark包名,创建Scala Object; 

  1. package com.imf.spark  
  3. import org.apache.spark.SparkConf  
  4. import org.apache.spark.SparkContext  
  5. /** 
  6.  * 用户scala开发本地测试的spark wordcount程序 
  7.  */  
  8. object WordCount {  
  9.    def main(args: Array[String]): Unit = {  
  10.      /** 
  11.       * 1.创建Spark的配置对象SparkConf,设置Spark程序的运行时的配置信息, 
  12.       * 例如:通过setMaster来设置程序要链接的Spark集群的Master的URL,如果设置为local, 
  13.       * 则代表Spark程序在本地运行,特别适合于机器配置条件非常差的情况。 
  14.       */  
  15.      //创建SparkConf对象  
  16.      val conf = new SparkConf()  
  17.      //设置应用程序名称,在程序运行的监控界面可以看到名称  
  18.      conf.setAppName("My First Spark App!")  
  19.      //设置local使程序在本地运行,不需要安装Spark集群  
  20.      conf.setMaster("local")  
  21.      /** 
  22.       * 2.创建SparkContext对象 
  23.       * SparkContext是spark程序所有功能的唯一入口,无论是采用Scala,java,python,R等都必须有一个SprakContext 
  24.       * SparkContext核心作用:初始化spark应用程序运行所需要的核心组件,包括DAGScheduler,TaskScheduler,SchedulerBackend 
  25.       * 同时还会负责Spark程序往Master注册程序等; 
  26.       * SparkContext是整个应用程序中最为至关重要的一个对象; 
  27.       */  
  28.      //通过创建SparkContext对象,通过传入SparkConf实例定制Spark运行的具体参数和配置信息  
  29.      val sc = new SparkContext(conf)  
  31.      /** 
  32.       * 3.根据具体数据的来源(HDFS,HBase,Local,FS,DB,S3等)通过SparkContext来创建RDD; 
  33.       * RDD的创建基本有三种方式:根据外部的数据来源(例如HDFS)、根据Scala集合、由其他的RDD操作; 
  34.       * 数据会被RDD划分成为一系列的Partitions,分配到每个Partition的数据属于一个Task的处理范畴; 
  35.       */  
  36.      //读取本地文件,并设置一个partition  
  37.      val lines = sc.textFile("D://testspark//",1)  
  39.      /** 
  40.       * 4.对初始的RDD进行Transformation级别的处理,例如map,filter等高阶函数的变成,来进行具体的数据计算 
  41.       * 4.1.将每一行的字符串拆分成单个单词 
  42.       */  
  43.      //对每一行的字符串进行拆分并把所有行的拆分结果通过flat合并成一个大的集合  
  44.       val words = lines.flatMap { line => line.split(" ") }  
  45.      /** 
  46.       * 4.2.在单词拆分的基础上对每个单词实例计数为1,也就是word => (word,1) 
  47.       */  
  48.      val pairs ={word =>(word,1)}  
  50.      /** 
  51.       * 4.3.在每个单词实例计数为1基础上统计每个单词在文件中出现的总次数 
  52.       */  
  53.      //对相同的key进行value的累积(包括Local和Reducer级别同时Reduce)  
  54.      val wordCounts = pairs.reduceByKey(_+_)  
  55.      //打印输出  
  56.      wordCounts.foreach(pair => println(pair._1+":"+pair._2))  
  57.      sc.stop()  
  58.    }  
  59. }  

  1. Using Spark's default log4j profile: org/apache/spark/  
  2. 16/01/26 08:23:37 INFO SparkContext: Running Spark version 1.6.0  
  3. 16/01/26 08:23:42 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable  
  4. 16/01/26 08:23:42 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path  
  5. Could not locate executable null\bin\winutils.exe in the Hadoop binaries.  
  6.     at org.apache.hadoop.util.Shell.getQualifiedBinPath(  
  7.     at org.apache.hadoop.util.Shell.getWinUtilsPath(  
  8.     at org.apache.hadoop.util.Shell.<clinit>(  
  9.     at org.apache.hadoop.util.StringUtils.<clinit>(  
  10.     at  
  11.     at<init>(  
  12.     at<init>(  
  13.     at  
  14.     at  
  15.     at  
  16.     at  
  17.     at  
  18.     at  
  19.     at org.apache.spark.util.Utils$$anonfun$getCurrentUserName$1.apply(Utils.scala:2136)  
  20.     at org.apache.spark.util.Utils$$anonfun$getCurrentUserName$1.apply(Utils.scala:2136)  
  21.     at scala.Option.getOrElse(Option.scala:120)  
  22.     at org.apache.spark.util.Utils$.getCurrentUserName(Utils.scala:2136)  
  23.     at org.apache.spark.SparkContext.<init>(SparkContext.scala:322)  
  24.     at com.dt.spark.WordCount$.main(WordCount.scala:29)  
  25.     at com.dt.spark.WordCount.main(WordCount.scala)  
  26. 16/01/26 08:23:42 INFO SecurityManager: Changing view acls to: vivi  
  27. 16/01/26 08:23:42 INFO SecurityManager: Changing modify acls to: vivi  
  28. 16/01/26 08:23:42 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(vivi); users with modify permissions: Set(vivi)  
  29. 16/01/26 08:23:43 INFO Utils: Successfully started service 'sparkDriver' on port 54663.  
  30. 16/01/26 08:23:43 INFO Slf4jLogger: Slf4jLogger started  
  31. 16/01/26 08:23:43 INFO Remoting: Starting remoting  
  32. 16/01/26 08:23:43 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://[email protected]:54676]  
  33. 16/01/26 08:23:43 INFO Utils: Successfully started service 'sparkDriverActorSystem' on port 54676.  
  34. 16/01/26 08:23:43 INFO SparkEnv: Registering MapOutputTracker  
  35. 16/01/26 08:23:43 INFO SparkEnv: Registering BlockManagerMaster  
  36. 16/01/26 08:23:43 INFO DiskBlockManager: Created local directory at C:\Users\vivi\AppData\Local\Temp\blockmgr-5f59f3c2-3b87-49c5-a1ae-e21847aac44b  
  37. 16/01/26 08:23:43 INFO MemoryStore: MemoryStore started with capacity 1813.7 MB  
  38. 16/01/26 08:23:43 INFO SparkEnv: Registering OutputCommitCoordinator  
  39. 16/01/26 08:23:43 INFO Utils: Successfully started service 'SparkUI' on port 4040.  
  40. 16/01/26 08:23:43 INFO SparkUI: Started SparkUI at  
  41. 16/01/26 08:23:43 INFO Executor: Starting executor ID driver on host localhost  
  42. 16/01/26 08:23:43 INFO Utils: Successfully started service '' on port 54683.  
  43. 16/01/26 08:23:43 INFO NettyBlockTransferService: Server created on 54683  
  44. 16/01/26 08:23:43 INFO BlockManagerMaster: Trying to register BlockManager  
  45. 16/01/26 08:23:43 INFO BlockManagerMasterEndpoint: Registering block manager localhost:54683 with 1813.7 MB RAM, BlockManagerId(driver, localhost, 54683)  
  46. 16/01/26 08:23:43 INFO BlockManagerMaster: Registered BlockManager  
  47. 16/01/26 08:23:46 INFO MemoryStore: Block broadcast_0 stored as values in memory (estimated size 153.6 KB, free 153.6 KB)  
  48. 16/01/26 08:23:46 INFO MemoryStore: Block broadcast_0_piece0 stored as bytes in memory (estimated size 13.9 KB, free 167.6 KB)  
  49. 16/01/26 08:23:46 INFO BlockManagerInfo: Added broadcast_0_piece0 in memory on localhost:54683 (size: 13.9 KB, free: 1813.7 MB)  
  50. 16/01/26 08:23:46 INFO SparkContext: Created broadcast 0 from textFile at WordCount.scala:37  
  51. 16/01/26 08:23:47 WARN : Your hostname, vivi-PC resolves to a loopback/non-reachable address: fe80:0:0:0:5937:95c4:86da:2f43%30, but we couldn't find any external IP address!  
  52. 16/01/26 08:23:48 INFO FileInputFormat: Total input paths to process : 1  
  53. 16/01/26 08:23:48 INFO SparkContext: Starting job: foreach at WordCount.scala:56  
  54. 16/01/26 08:23:48 INFO DAGScheduler: Registering RDD 3 (map at WordCount.scala:48)  
  55. 16/01/26 08:23:48 INFO DAGScheduler: Got job 0 (foreach at WordCount.scala:56) with 1 output partitions  
  56. 16/01/26 08:23:48 INFO DAGScheduler: Final stage: ResultStage 1 (foreach at WordCount.scala:56)  
  57. 16/01/26 08:23:48 INFO DAGScheduler: Parents of final stage: List(ShuffleMapStage 0)  
  58. 16/01/26 08:23:48 INFO DAGScheduler: Missing parents: List(ShuffleMapStage 0)  
  59. 16/01/26 08:23:48 INFO DAGScheduler: Submitting ShuffleMapStage 0 (MapPartitionsRDD[3] at map at WordCount.scala:48), which has no missing parents  
  60. 16/01/26 08:23:48 INFO MemoryStore: Block broadcast_1 stored as values in memory (estimated size 4.0 KB, free 171.6 KB)  
  61. 16/01/26 08:23:48 INFO MemoryStore: Block broadcast_1_piece0 stored as bytes in memory (estimated size 2.3 KB, free 173.9 KB)  
  62. 16/01/26 08:23:48 INFO BlockManagerInfo: Added broadcast_1_piece0 in memory on localhost:54683 (size: 2.3 KB, free: 1813.7 MB)  
  63. 16/01/26 08:23:48 INFO SparkContext: Created broadcast 1 from broadcast at DAGScheduler.scala:1006  
  64. 16/01/26 08:23:48 INFO DAGScheduler: Submitting 1 missing tasks from ShuffleMapStage 0 (MapPartitionsRDD[3] at map at WordCount.scala:48)  
  65. 16/01/26 08:23:48 INFO TaskSchedulerImpl: Adding task set 0.0 with 1 tasks  
  66. 16/01/26 08:23:48 INFO TaskSetManager: Starting task 0.0 in stage 0.0 (TID 0, localhost, partition 0,PROCESS_LOCAL, 2119 bytes)  
  67. 16/01/26 08:23:48 INFO Executor: Running task 0.0 in stage 0.0 (TID 0)  
  68. 16/01/26 08:23:48 INFO HadoopRDD: Input split: file:/D:/testspark/  
  69. 16/01/26 08:23:48 INFO deprecation: is deprecated. Instead, use  
  70. 16/01/26 08:23:48 INFO deprecation: is deprecated. Instead, use  
  71. 16/01/26 08:23:48 INFO deprecation: is deprecated. Instead, use mapreduce.task.ismap  
  72. 16/01/26 08:23:48 INFO deprecation: mapred.task.partition is deprecated. Instead, use mapreduce.task.partition  
  73. 16/01/26 08:23:48 INFO deprecation: is deprecated. Instead, use  
  74. 16/01/26 08:23:48 INFO Executor: Finished task 0.0 in stage 0.0 (TID 0). 2253 bytes result sent to driver  
  75. 16/01/26 08:23:48 INFO TaskSetManager: Finished task 0.0 in stage 0.0 (TID 0) in 177 ms on localhost (1/1)  
  76. 16/01/26 08:23:48 INFO TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool   
  77. 16/01/26 08:23:48 INFO DAGScheduler: ShuffleMapStage 0 (map at WordCount.scala:48) finished in 0.186 s  
  78. 16/01/26 08:23:48 INFO DAGScheduler: looking for newly runnable stages  
  79. 16/01/26 08:23:48 INFO DAGScheduler: running: Set()  
  80. 16/01/26 08:23:48 INFO DAGScheduler: waiting: Set(ResultStage 1)  
  81. 16/01/26 08:23:48 INFO DAGScheduler: failed: Set()  
  82. 16/01/26 08:23:48 INFO DAGScheduler: Submitting ResultStage 1 (ShuffledRDD[4] at reduceByKey at WordCount.scala:54), which has no missing parents  
  83. 16/01/26 08:23:48 INFO MemoryStore: Block broadcast_2 stored as values in memory (estimated size 2.5 KB, free 176.4 KB)  
  84. 16/01/26 08:23:48 INFO MemoryStore: Block broadcast_2_piece0 stored as bytes in memory (estimated size 1581.0 B, free 177.9 KB)  
  85. 16/01/26 08:23:48 INFO BlockManagerInfo: Added broadcast_2_piece0 in memory on localhost:54683 (size: 1581.0 B, free: 1813.7 MB)  
  86. 16/01/26 08:23:48 INFO SparkContext: Created broadcast 2 from broadcast at DAGScheduler.scala:1006  
  87. 16/01/26 08:23:48 INFO DAGScheduler: Submitting 1 missing tasks from ResultStage 1 (ShuffledRDD[4] at reduceByKey at WordCount.scala:54)  
  88. 16/01/26 08:23:48 INFO TaskSchedulerImpl: Adding task set 1.0 with 1 tasks  
  89. 16/01/26 08:23:48 INFO TaskSetManager: Starting task 0.0 in stage 1.0 (TID 1, localhost, partition 0,NODE_LOCAL, 1894 bytes)  
  90. 16/01/26 08:23:48 INFO Executor: Running task 0.0 in stage 1.0 (TID 1)  
  91. 16/01/26 08:23:48 INFO ShuffleBlockFetcherIterator: Getting 1 non-empty blocks out of 1 blocks  
  92. 16/01/26 08:23:48 INFO ShuffleBlockFetcherIterator: Started 0 remote fetches in 2 ms  
  353. 16/01/26 08:23:48 INFO Executor: Finished task 0.0 in stage 1.0 (TID 1). 1165 bytes result sent to driver  
  354. 16/01/26 08:23:48 INFO TaskSetManager: Finished task 0.0 in stage 1.0 (TID 1) in 61 ms on localhost (1/1)  
  355. 16/01/26 08:23:48 INFO TaskSchedulerImpl: Removed TaskSet 1.0, whose tasks have all completed, from pool   
  356. 16/01/26 08:23:48 INFO DAGScheduler: ResultStage 1 (foreach at WordCount.scala:56) finished in 0.061 s  
  357. 16/01/26 08:23:48 INFO DAGScheduler: Job 0 finished: foreach at WordCount.scala:56, took 0.328012 s  
  358. 16/01/26 08:23:48 INFO SparkUI: Stopped Spark web UI at  
  359. 16/01/26 08:23:48 INFO MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpoint stopped!  
  360. 16/01/26 08:23:48 INFO MemoryStore: MemoryStore cleared  
  361. 16/01/26 08:23:48 INFO BlockManager: BlockManager stopped  
  362. 16/01/26 08:23:48 INFO BlockManagerMaster: BlockManagerMaster stopped  
  363. 16/01/26 08:23:48 INFO OutputCommitCoordinator$OutputCommitCoordinatorEndpoint: OutputCommitCoordinator stopped!  
  364. 16/01/26 08:23:48 INFO SparkContext: Successfully stopped SparkContext  
  365. 16/01/26 08:23:48 INFO RemoteActorRefProvider$RemotingTerminator: Shutting down remote daemon.  
  366. 16/01/26 08:23:48 INFO RemoteActorRefProvider$RemotingTerminator: Remote daemon shut down; proceeding with flushing remote transports.  
  367. 16/01/26 08:23:48 INFO ShutdownHookManager: Shutdown hook called  
  368. 16/01/26 08:23:48 INFO ShutdownHookManager: Deleting directory C:\Users\vivi\AppData\Local\Temp\spark-56f9ed0a-5671-449a-955a-041c63569ff2  
