大数据中怎样解决各种序列化导致的错误

本篇文章为大家展示了大数据中怎样解决各种序列化导致的错误，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

你会看到什么样的序列化导致的报错？

用client模式去提交spark作业，观察本地打印出来的log。如果出现了类似于Serializable、Serialize等等字眼，报错的log，那么恭喜大家，就碰到了序列化问题导致的报错。虽然是报错，但是序列化报错，应该是属于比较简单的了，很好处理。

序列化报错要注意的点：

你的算子函数里面，如果使用到了外部的自定义类型的变量，那么此时，就要求你的自定义类型，必须是可序列化的。

final Teacher teacher = new Teacher("SET");

studentsRDD.foreach(new VoidFunction() {
 
    public void call(Row row) throws Exception {
        String teacherName = teacher.getName();
    ....  
    }

});

public class Teacher implements Serializable {
  
}

如果要将自定义的类型，作为RDD的元素类型，那么自定义的类型也必须是可以序列化的

JavaPairRDD<Integer, Teacher> teacherRDD
JavaPairRDD<Integer, Student> studentRDD
studentRDD.join(teacherRDD)

public class Teacher implements Serializable {
  
}

public class Student implements Serializable {
  
}

上述内容就是大数据中怎样解决各种序列化导致的错误，你们学到知识或技能了吗？如果还想学到更多技能或者丰富自己的知识储备，欢迎关注行业资讯频道。

大数据中怎样解决各种序列化导致的错误

相关推荐