您的位置: 首页 > 文章 > 大数据Spark中的RDD操作

大数据Spark中的RDD操作

分类: 文章 • 2024-08-17 21:01:28

大数据Spark中的RDD操作

一、上传1.txt文本到本地，并分为2个区：
大数据Spark中的RDD操作
二、上传文件到hadoop伪分布式系统
1、启动hadoop

2、查看hadoop根目录文件：

3、上传文本到hadoop伪分布式系统

4、查看文本

5、在spark操作文本：

6、把List 数组乘以2，makeRDD方法和map方法

7、textFile方法和flatMap方法
大数据Spark中的RDD操作
8、filter方法

9、mapPartitions方法
大数据Spark中的RDD操作
10、mapPartitionsWithIndex方法

11、找出两个文件相同的ip地址

12、取差值

13、分组

14、按地区分组

15、统计数量

大数据Spark中的RDD操作

16、统计本地文件单词出现的次数
大数据Spark中的RDD操作

17、扩大分区
大数据Spark中的RDD操作
18、总和和统计RDD元素个数

19、获取第一个数和获取前1个数
大数据Spark中的RDD操作
20、先将RDD中的数据进行升序排序，然后取前n个

21、、先将RDD中的数据进行降序排序，然后取前n个

22、按照文本方式保全分区数据

大数据Spark中的RDD操作

23、countByKey方法
大数据Spark中的RDD操作
24、遍历输出

大数据Spark中的RDD操作