FitNets: Hints for Thin Deep Nets

其实应该先早点写这篇文章的

这篇文章主要是将hinton的output distillation扩展到了feature distillation
FitNets: Hints for Thin Deep Nets
FitNets: Hints for Thin Deep Nets
该loss用来拉进student和teacher feature的距离FitNets: Hints for Thin Deep Nets
该loss就是与hard label、soft label做cross entroy
训练过程需要注意:

  1. 先进行hints training,即选择某一层feature对齐后,利用HT loss训练该层前面的参数
  2. 固定前面的参数,利用KD loss,训练整个网络