h2o deeplearning:什么是输入变量影响/系数?
问题描述:
我想在与H2O美国机场预测滑出次深度学习模式:h2o deeplearning:什么是输入变量影响/系数?
#Deep learning neural network
deep<-h2o.deeplearning(
training_frame = train,
validation_frame = valid,
x=predictors,
y=target,
#distribution = "gaussian",
#loss = "Automatic",
hidden=c(200,200,200),
epochs = 50,
#activation="Rectifier",
stopping_metric="deviance",
stopping_tolerance=1e-4, # stops when deviance does not improve by
>=0.0001 for 5 scoring events
)
summary(deep)
这是截断变量重要性列表:
变量重要性有关:
variable relative_importance scaled_importance percentage
1 Event_1.Fog 1.000000 1.000000 0.024205
2 Event_2.Rain 0.983211 0.983211 0.023799
3 CARRIER.NK 0.946493 0.946493 0.022910
4 Event_1.noevent 0.936131 0.936131 0.022659
5 cos_deptime 0.934558 0.934558 0.022621
我理解“重要性”是作为变量的相对影响来计算的,但我怎么知道这个变量是否有助于增加或减少滑出时间? h2o是否显示带有符号的每个变量的系数? 我已阅读此文档http://h2o-release.s3.amazonaws.com/h2o/latest_stable_doc.html,但它不能解释是否可变的雾或雨增加或减少滑出时间和多少。
答
H2O深度学习(或RF或GBM,对于这个问题)的变量重要性与GLM中的系数大小(可以是正数或负数)不同,这正是您所描述的。它可以被解释为“这个变量在预测结果中有多重要”,并且该度量是相对于模型中的其他变量的。
正如在H2O Deep Learning documentation中提到的,我们使用称为Gedeon方法的技术来计算这个度量。 (RF和GBM使用不同的方法)。