Pyspark - fpgrowth - 关联规则 - *错误

问题描述：

我有一个巨大的数据框（500万行），每行是一篮子项目，我试图获得频繁的项目集和关联规则。但它给了我*Errors，我试图设置检查点目录，但它没有解决问题。任何想法如何解决这个问题？非常感谢提前Pyspark - fpgrowth - 关联规则 - *错误

fpGrowth = FPGrowth(itemsCol="ARFeatures", minSupport=0.8, minConfidence=0.9) 

model = fpGrowth.fit(completeDf)

java.lang.*Error的在java.lang.reflect.InvocationTargetException。（InvocationTargetException.java:72）在sun.reflect.GeneratedMethodAccessor14.invoke（来源不明）在java.io.ObjectStreamClass.invokeWriteObject（ObjectStreamClass.java:1028）（sun.reflect.DelegatingMethodAccessorImpl.invoke（DelegatingMethodAccessorImpl.java:43） at java.lang.reflect.Method.invoke（Method.java:498）在java.io.ObjectOutputStream.writeSerialData（ObjectOutputStream.java:1496）在java.io.ObjectOutputStream.writeOrdinaryObject（ObjectOutputStream.java:1432） at java.io.ObjectOutputStream.writeObject0（ObjectOutputStream.java:1178） at java.io.ObjectOutputStream.defaultWriteFields（ObjectOutputStream.java:1548） at java .io.ObjectOutputStream.writeSerialData（ObjectOutputStream.java:1509） at java.io.ObjectOutputStream.writeOrdinaryObject（ObjectOutputStream.java:1432） at java.io.ObjectOutputStream.writeObject0（ObjectOutputStream.java:1178） at java.io .ObjectOutputStream.writeObject（ObjectOutputStream.java:348） at scala.collection.mutable.HashMap $$ anonfun $ writeObject $ 1.apply（HashMap.scala：138） at scala.collection.mutable.HashMap $$ anonfun $ writeObject $ 1 .apply（HashMap.scala：136） at scala.collection.mutable.HashTable $ class.foreachEntry（HashTable.scala：230） at scala.collection.mutable.HashMap.foreachEntry（HashMap.scala：40） at scala.collection.mutable.HashTable $ class。在sun.reflect的scala.collection.mutable.HashMap.writeObject（HashMap.scala：136）上， GeneratedMethodAccessor14.invoke在java.io.ObjectStreamClass.invokeWriteObject（来源不明）在sun.reflect.DelegatingMethodAccessorImpl.invoke（DelegatingMethodAccessorImpl.java:43）在java.lang.reflect.Method.invoke（Method.java:498）（ObjectStreamClass.java:1028） at java.io.ObjectOutputStream.writeSerialData（Objec tOutputStream.java:1496）在java.io.ObjectOutputStream.writeOrdinaryObject（ObjectOutputStream.java:1432）在java.io.ObjectOutputStream.writeObject0（ObjectOutputStream.java:1178）在java.io.ObjectOutputStream.defaultWriteFields（ObjectOutputStream中。（ObjectOutputStream.writevac：ObjectOutputStream.writevac：ObjectOutputStream.writevag：ObjectOutputStream.writevag（ObjectOutputStream.java:1509））在java.io.ObjectOutputStream.writeObject0（ObjectOutputStream.write： 1178） at java.io.ObjectOutputStream.writeObject（ObjectOutputStream.java:348） at scala.collection.mutable.HashMap $$ anonfun $ writeObject $ 1.apply（HashMap.scala：138）

我不知道FPGrowth的内部结构，但是您是否尝试过增加堆栈大小？（JVM选项-Xss） – Traian

这是火花提交的命令行参数之一吗？ – soulless

答

增加驱动程序堆栈大小。这取决于您如何执行应用程序，您需要正确传递驱动程序JVM选项。

火花提交，你可以将其添加为一个cmd行参数：

--conf "spark.driver.extraJavaOptions=-Xss10m"

看看这些了解更多详情：

https://issues.apache.org/jira/browse/SPARK-18531
How to pass -D parameter or environment variable to Spark job?

“spark.driver.extraJavaOptions = -Xss10m”适用于我 – soulless

Pyspark - fpgrowth - 关联规则 - *错误

相关推荐