IDEA 打包 spark 程序 并在远程 hadoop HA 上运行测试

1. idea   安装创建 (略)

2。创建 scala 的 Maven  项目  (略)

3。导入maven 依赖  (重要)

<project xmlns="" xmlns:xsi="" xsi:schemaLocation="">




                <!--<transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">-->


关于此项选择:《maven  用的 不是很好 不太懂》  

这一项中 添加此配置  可以解决打包之后的依赖冲突;如果不加 此项 有可能在打包之后的jar 中 出现包的依赖重复,运行时提示错误信息:

    java.lang.SecurityException: class "javax.servlet.FilterRegistration"'s signer information does notmatch signer information of other classes in the same package

遇到这种情况  需要对包 进行处理: (执行此命令)

zip -d SparkHBase.jar META-INF/*.SF META-INF/*.DSA META-INF/*.RSA




package SparkTest

import org.apache.spark.{SparkConf, SparkContext}

object TestStreaming {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("spark://slaver3:7077").setAppName("2018_3_19")
//      setJars(List("D:\\project\\SparkHbase\\out\\artifacts\\SparkHBase_jar"))
    val ssc = new SparkContext(conf);
    val input = ssc.textFile("hdfs://Machenmaster/hbase/data.txt")
    val words = input.flatMap(line => line.split(" ")).map(word =>(word,1)).reduceByKey((x,y)=>x+y)

可以使用maven   也可以使用idea自己的打包方式:

【1】我用的是IDEA  自己的打包方式;

【2】和之前文章介绍的 一样 把 所有的依赖包 全部去了  (linux 环境中已经全部拥有)

【3】上传至集群中 ,运行:

        spark-submit --class SparkTest.TestStreaming SparkHBase.jar 

