系列论文阅读之知识蒸馏（二）《FitNets : Hints for Thin Deep Nets》

本文成果：

从一个wide and deep的网路蒸馏成一个thin and deeper的网络。

主要的方法如下图所示：

实际上是在KD的基础上，增加了一个中间层的知识蒸馏。系列论文阅读之知识蒸馏（二）《FitNets : Hints for Thin Deep Nets》

以下是KD的主要方法：

系列论文阅读之知识蒸馏（二）《FitNets : Hints for Thin Deep Nets》

训练要点：

两个loss function:

（1）Teacher网络的某一中间层的权值为Wt=Whint，Student网络的某一中间层的权值为Ws=Wguided。使用一个映射函数Wr来使得Wguided的维度匹配Whint，得到Ws'。其中对于Wr的训练使用MSEloss：

系列论文阅读之知识蒸馏（二）《FitNets : Hints for Thin Deep Nets》

(2) 另外一个是改造的softmax loss（具体见Hinton的论文）:

系列论文阅读之知识蒸馏（二）《FitNets : Hints for Thin Deep Nets》