使用熊猫与星火

使用熊猫与星火

问题描述：

我对火花和熊猫有Noob问题。我想用熊猫，numpy等..与火花，但是当我导入一个库我有一个错误。你能帮我吗？这是我的代码使用熊猫与星火

from pyspark import SparkContext, SQLContext 
from pyspark import SparkConf 
import pandas 

# Config 
conf = SparkConf().setAppName("Script") 
sc = SparkContext(conf=conf) 
log4j = sc._jvm.org.apache.log4j 
log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR) 
sqlCtx = SQLContext(sc) 

# Importation of csv out of HDFS 
data_name = "file_on_hdfs.csv" 
data_textfile = sc.textFile(data_name)

这是错误：

ImportError: No module named pandas

怎么用熊猫吗？这不是本地模式。

答

Spark有它自己的Dataframe可以从RDD创建的对象。

您仍然可以使用numpy等库，但必须先安装它们。

它可以导入或安装或与火花提交推包？ – Zop

该软件包应该可用于'pyspark'服务器端。 'spark-submit'只发送你的脚本，而不是它的依赖项，库等。 – rtkaleta

答

检查您是否在您的包装箱中安装了熊猫，并在终端中使用pip list|grep 'pandas'命令。如果您有匹配，请执行apt-get update。如果您使用的是多节点群集，那么您需要在所有客户端框中安装熊猫。

不如试试数据帧的火花版本，但如果你还是喜欢用大熊猫上述方法将工作

答

您可以使用Apache箭这个问题。

Apache Arrow

它的最初版本，但将在未来更强大（看到）。

对于安装： click

相关推荐