大数据Spark中的RDD操作

大数据Spark中的RDD操作

一、上传1.txt文本到本地,并分为2个区:
大数据Spark中的RDD操作
二、上传文件到hadoop伪分布式系统
1、启动hadoop
大数据Spark中的RDD操作
2、查看hadoop根目录文件:
大数据Spark中的RDD操作
3、上传文本到hadoop伪分布式系统
大数据Spark中的RDD操作
4、查看文本
大数据Spark中的RDD操作
5、在spark操作文本:
大数据Spark中的RDD操作
6、把List 数组乘以2,makeRDD方法和map方法
大数据Spark中的RDD操作
7、textFile方法和flatMap方法
大数据Spark中的RDD操作
8、filter方法
大数据Spark中的RDD操作

9、mapPartitions方法
大数据Spark中的RDD操作
10、mapPartitionsWithIndex方法
大数据Spark中的RDD操作
11、找出两个文件相同的ip地址
大数据Spark中的RDD操作
大数据Spark中的RDD操作
大数据Spark中的RDD操作
大数据Spark中的RDD操作
大数据Spark中的RDD操作大数据Spark中的RDD操作
12、取差值
大数据Spark中的RDD操作
13、分组
大数据Spark中的RDD操作
14、按地区分组
大数据Spark中的RDD操作
15、统计数量

大数据Spark中的RDD操作

16、统计本地文件单词出现的次数
大数据Spark中的RDD操作
大数据Spark中的RDD操作大数据Spark中的RDD操作

17、扩大分区
大数据Spark中的RDD操作
18、总和和统计RDD元素个数
大数据Spark中的RDD操作

19、获取第一个数和获取前1个数
大数据Spark中的RDD操作
20、先将RDD中的数据进行升序排序,然后取前n个
大数据Spark中的RDD操作
21、、先将RDD中的数据进行降序排序,然后取前n个
大数据Spark中的RDD操作
22、按照文本方式保全分区数据

大数据Spark中的RDD操作
大数据Spark中的RDD操作
大数据Spark中的RDD操作
大数据Spark中的RDD操作

23、countByKey方法
大数据Spark中的RDD操作
24、遍历输出

大数据Spark中的RDD操作
大数据Spark中的RDD操作