h2o deeplearning:什么是输入变量影响/系数?

问题描述:

我想在与H2O美国机场预测滑出次深度学习模式:h2o deeplearning:什么是输入变量影响/系数?

#Deep learning neural network 

    deep<-h2o.deeplearning(
    training_frame = train, 
    validation_frame = valid, 
    x=predictors, 
    y=target, 
    #distribution = "gaussian", 
    #loss = "Automatic", 
    hidden=c(200,200,200), 
    epochs = 50, 
    #activation="Rectifier", 
    stopping_metric="deviance", 
    stopping_tolerance=1e-4,  # stops when deviance does not improve by 
            >=0.0001 for 5 scoring events 
) 

    summary(deep) 

这是截断变量重要性列表:

变量重要性有关:

  variable relative_importance scaled_importance percentage 
1  Event_1.Fog   1.000000   1.000000 0.024205 
2 Event_2.Rain   0.983211   0.983211 0.023799 
3  CARRIER.NK   0.946493   0.946493 0.022910 
4 Event_1.noevent   0.936131   0.936131 0.022659 
5  cos_deptime   0.934558   0.934558 0.022621 

我理解“重要性”是作为变量的相对影响来计算的,但我怎么知道这个变量是否有助于增加或减少滑出时间? h2o是否显示带有符号的每个变量的系数? 我已阅读此文档http://h2o-release.s3.amazonaws.com/h2o/latest_stable_doc.html,但它不能解释是否可变的雾或雨增加或减少滑出时间和多少。

H2O深度学习(或RF或GBM,对于这个问题)的变量重要性与GLM中的系数大小(可以是正数或负数)不同,这正是您所描述的。它可以被解释为“这个变量在预测结果中有多重要”,并且该度量是相对于模型中的其他变量的。

正如在H2O Deep Learning documentation中提到的,我们使用称为Gedeon方法的技术来计算这个度量。 (RF和GBM使用不同的方法)。