pyspark案例

pyspark本地环境配置教程配置成功后,可以通过spark dataframe笔记练习pyspark的用法,不过最好是通过spark官网练习语法使用。下面写个小案例,供自己以后查阅:

#!/usr/bin/python
# -*- coding: utf-8 -*-
"""
@author:
@contact:
@time:
"""
from __future__ import print_function
from pyspark.sql import SparkSession
import os, time

if __name__ == "__main__":
   # 设置spark_home环境变量,路径不能有中文、空格
   os.environ['SPARK_HOME'] = "E:/data_page/spark-2.0.2-bin-hadoop2.7"
   # 运行在本地(local),2个线程,一行写不完换行时用“\”
   spark = SparkSession.builder\
      .appName("test")\
      .master("local[2]")\
      .getOrCreate()
   # 如果想看函数源码,可以通过ctrl+点击函数的形式跳转到函数详情界面
   datas = ["hi I love you", "hello", "ni hao"]
   sc = spark.sparkContext
   rdd = sc.parallelize(datas)
   # 查看数据类型 type()
   print(type(datas))
   print(type(rdd))
   #获取总数,第一条数据
   print(rdd.count())
   print(rdd.first())
   # 每个spark运行会有一个监控界面(WEB UI4040),为了监控,让线程休眠一段时间,然后打开localhost:4040页面
   time.sleep(100)
   spark.stop()

打印的结果如下:

<type 'list'>
<class 'pyspark.rdd.RDD'>
3
hi I love you

localhost:4040界面如下:
pyspark案例