pyspark之创建SparkSession

1、SparkSession 介绍

通过SparkSession 可以创建DataFrame, 也可以把DataFrame注册成一个table，基于此执行一系列SQL操作。DataFrame和pandas里的DataFrame类似。

关于什么是DataFrame，后续会出一篇介绍spark基本概念的博客。

2、实验环境

博主是用的 jupyter notebook，新建了一个pyspark的notebook。环境如何搭建这里就不多说了。
当然了，下面的代码也可以在PyCharm里实现。

3、创建一个SparkSession

SparkSQL支持scala、java、python和R。以官网示例python为例：

from pyspark.sql import SparkSession
spark = SparkSession \
    .builder \
    .appName("Python Spark SQL basic example") \
    .config("spark.some.config.option", "some-value") \
    .getOrCreate()

其中：

在pyspark中换行要加入\
.getOrCreate() 指的是如果当前存在一个SparkSession就直接获取，否则新建。
.enableHiveSupport() 使我们可以从读取或写入数据到hive。

我们还可以自定义配置，例如定义spark任务执行时的内存：

from pyspark.sql import SparkSession
myspark = SparkSession.builder \
    .appName('compute_customer_age') \
    .config('spark.executor.memory','2g') \
    .enableHiveSupport() \
    .getOrCreate()

4、基于SparkSession操作

Create DataFrame：从hive读数据

sql = """
      SELECT id as customer_id,name, register_date
      FROM [db_name].[hive_table_name]
      limit 100
      """
df = myspark.sql(sql)
df.show()

df.show() 可以预览数据，默认显示前20行，df.show(n) 可以显示前n行。
df.show()结果如图：
pyspark之创建SparkSession

关于SparkSession的介绍就到这里了，博主也是边学习边总结经验，把踩到的坑记录下来。

参考资料：
1、Spark SQL, DataFrames and Datasets Guide

pyspark之创建SparkSession

1、SparkSession 介绍

2、实验环境

3、创建一个SparkSession

4、基于SparkSession操作

相关推荐