大数据Spark中的RDD操作
大数据Spark中的RDD操作
一、上传1.txt文本到本地,并分为2个区:
二、上传文件到hadoop伪分布式系统
1、启动hadoop
2、查看hadoop根目录文件:
3、上传文本到hadoop伪分布式系统
4、查看文本
5、在spark操作文本:
6、把List 数组乘以2,makeRDD方法和map方法
7、textFile方法和flatMap方法
8、filter方法
9、mapPartitions方法
10、mapPartitionsWithIndex方法
11、找出两个文件相同的ip地址
12、取差值
13、分组
14、按地区分组
15、统计数量
16、统计本地文件单词出现的次数
17、扩大分区
18、总和和统计RDD元素个数
19、获取第一个数和获取前1个数
20、先将RDD中的数据进行升序排序,然后取前n个
21、、先将RDD中的数据进行降序排序,然后取前n个
22、按照文本方式保全分区数据
23、countByKey方法
24、遍历输出