使用熊猫与星火
问题描述:
我对火花和熊猫有Noob问题。我想用熊猫,numpy等..与火花,但是当我导入一个库我有一个错误。你能帮我吗? 这是我的代码使用熊猫与星火
from pyspark import SparkContext, SQLContext
from pyspark import SparkConf
import pandas
# Config
conf = SparkConf().setAppName("Script")
sc = SparkContext(conf=conf)
log4j = sc._jvm.org.apache.log4j
log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR)
sqlCtx = SQLContext(sc)
# Importation of csv out of HDFS
data_name = "file_on_hdfs.csv"
data_textfile = sc.textFile(data_name)
这是错误:
ImportError: No module named pandas
怎么用熊猫吗?这不是本地模式。
答
检查您是否在您的包装箱中安装了熊猫,并在终端中使用pip list|grep 'pandas'
命令。如果您有匹配,请执行apt-get update
。 如果您使用的是多节点群集,那么您需要在所有客户端框中安装熊猫。
不如试试数据帧的火花版本,但如果你还是喜欢用大熊猫上述方法将工作
它可以导入或安装或与火花提交推包? – Zop
该软件包应该可用于'pyspark'服务器端。 'spark-submit'只发送你的脚本,而不是它的依赖项,库等。 – rtkaleta