Pyspark - fpgrowth - 关联规则 - *错误

问题描述:

我有一个巨大的数据框(500万行),每行是一篮子项目,我试图获得频繁的项目集和关联规则。但它给了我*Errors,我试图设置检查点目录,但它没有解决问题。任何想法如何解决这个问题?非常感谢提前Pyspark - fpgrowth - 关联规则 - *错误

fpGrowth = FPGrowth(itemsCol="ARFeatures", minSupport=0.8, minConfidence=0.9) 

model = fpGrowth.fit(completeDf) 

java.lang.*Error的 在java.lang.reflect.InvocationTargetException。(InvocationTargetException.java:72) 在sun.reflect.GeneratedMethodAccessor14.invoke(来源不明) 在java.io.ObjectStreamClass.invokeWriteObject(ObjectStreamClass.java:1028) (sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) 在java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1496) 在java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178) at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548) at java .io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509) at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178) at java.io .ObjectOutputStream.writeObject(ObjectOutputStream.java:348) at scala.collection.mutable.HashMap $$ anonfun $ writeObject $ 1.apply(HashMap.scala:138) at scala.collection.mutable.HashMap $$ anonfun $ writeObject $ 1 .apply(HashMap.scala:136) at scala.collection.mutable.HashTable $ class.foreachEntry(HashTable.scala:230) at scala.collection.mutable.HashMap.foreachEntry(HashMap.scala:40) at scala.collection.mutable.HashTable $ class。在sun.reflect的scala.collection.mutable.HashMap.writeObject(HashMap.scala:136) 上, GeneratedMethodAccessor14.invoke在java.io.ObjectStreamClass.invokeWriteObject(来源不明) 在sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 在java.lang.reflect.Method.invoke(Method.java:498) (ObjectStreamClass.java:1028) at java.io.ObjectOutputStream.writeSerialData(Objec tOutputStream.java:1496) 在java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432) 在java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178) 在java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream中。 (ObjectOutputStream.writevac:ObjectOutputStream.writevac:ObjectOutputStream.writevag:ObjectOutputStream.writevag(ObjectOutputStream.java:1509) )在java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.write: 1178) at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:348) at scala.collection.mutable.HashMap $$ anonfun $ writeObject $ 1.apply(HashMap.scala:138)

+0

我不知道FPGrowth的内部结构,但是您是否尝试过增加堆栈大小? (JVM选项-Xss) – Traian

+0

这是火花提交的命令行参数之一吗? – soulless

增加驱动程序堆栈大小。这取决于您如何执行应用程序,您需要正确传递驱动程序JVM选项。

火花提交,你可以将其添加为一个cmd行参数:

--conf "spark.driver.extraJavaOptions=-Xss10m" 

看看这些了解更多详情:

+0

“spark.driver.extraJavaOptions = -Xss10m”适用于我 – soulless