FitNets: Hints for Thin Deep Nets
其实应该先早点写这篇文章的
这篇文章主要是将hinton的output distillation扩展到了feature distillation
该loss用来拉进student和teacher feature的距离
该loss就是与hard label、soft label做cross entroy
训练过程需要注意:
- 先进行hints training,即选择某一层feature对齐后,利用HT loss训练该层前面的参数
- 固定前面的参数,利用KD loss,训练整个网络