Spark - Prediction Probability API(predict_proba)

问题描述:

Apache Spark是否提供API来获取类似于scikit-learn的predict_proba函数(即decision_tree.predict_proba(X))的决策树预测概率?Spark - Prediction Probability API(predict_proba)

早上好,

此链接可以帮助你:http://spark.apache.org/docs/latest/mllib-decision-tree.html

+0

谢谢。我只能看到得到布尔预测的能力,而不是预测概率。我错过了什么吗? – user2701815 2014-12-19 20:25:40

我自己寻找这一点。当我注意到api具有非常尴尬的功能时(至少对于LogisticRegressionModel),我差点破解了一个解决方案:

您清除了阈值(使用clearThreshold())。这样预测功能不会返回标签,而是返回底层的价值。

Java docs这样说:

公共LogisticRegressionModel clearThreshold() ::实验::清除阈值,使得预测将要输出的原始预测分数。

仅供参考:返回值介于0和1之间,默认阈值为0.5,因此您可以轻松评估要设置阈值的内容。