Spark SQL 初体验

1. 入口-SparkSession

●在spark2.0版本之前

SQLContext是创建DataFrame和执行SQL的入口

HiveContext通过hive sql语句操作hive表数据，兼容hive操作，hiveContext继承自SQLContext。

●在spark2.0之后

SparkSession 封装了SqlContext及HiveContext所有功能。通过SparkSession还可以获取到SparkConetxt。

SparkSession可以执行SparkSQL也可以执行HiveSQL.

创建DataFrame
1. 创读取文本文件

1.在本地创建一个文件，有id、name、age三列，用空格分隔，然后上传到hdfs上

vim /opt/package/person

1 zhangsan 20

2 lisi 29

3 wangwu 25

4 zhaoliu 30

5 tianqi 35

6 kobe 40

上传数据文件到HDFS上：(我这里使用的本地测试模式 )

hadoop fs -put /opt/person.txt /

2.在spark shell执行下面命令，读取数据，将每一行的数据使用列分隔符分割

打开spark-shell

/export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0//bin/spark-shell

创建RDD

val lineRDD= sc.textFile("hdfs://node01:8020/person.txt").map(_.split(" "))

本地

var lineData2 = sc.textFile("file:///opt/package/person.txt").map(_.split(" "))

//RDD[Array[String]]

3.定义case class(相当于表的schema)

case class Person(id:Int, name:String, age:Int)

4.将RDD和case class关联

val personRDD = lineRDD.map(x => Person(x(0).toInt, x(1), x(2).toInt)) //RDD[Person]

5.将RDD转换成DataFrame

val personDF = personRDD.toDF //DataFrame

6.查看数据和schema

personDF.show

+---+--------+---+

| id| name|age|

+---+--------+---+

| 1|zhangsan| 20|

| 2| lisi| 29|

| 3| wangwu| 25|

| 4| zhaoliu| 30|

| 5| tianqi| 35|

| 6| kobe| 40|

+---+--------+---+

personDF.printSchema

7.注册表

personDF.createOrReplaceTempView("t_person")

8.执行SQL

spark.sql("select id,name from t_person where id > 3").show

9.也可以通过SparkSession构建DataFrame

val dataFrame=spark.read.text("hdfs://node01:8020/person.txt")

dataFrame.show //注意：直接读取的文本文件没有完整schema信息

dataFrame.printSchema

Spark SQL Run

Spark SQL 初体验

本地模式操作：

Spark SQL Run

Spark SQL 初体验

本地 模式操作：

相关推荐

本地模式操作：