系列论文阅读之知识蒸馏(二)《FitNets : Hints for Thin Deep Nets》

本文成果:

 

从一个wide and deep的网路蒸馏成一个thin and deeper的网络。

主要的方法如下图所示:

实际上是在KD的基础上,增加了一个中间层的知识蒸馏。系列论文阅读之知识蒸馏(二)《FitNets : Hints for Thin Deep Nets》

以下是KD的主要方法:


系列论文阅读之知识蒸馏(二)《FitNets : Hints for Thin Deep Nets》

训练要点:

两个loss function:

(1)Teacher网络的某一中间层的权值为Wt=Whint,Student网络的某一中间层的权值为Ws=Wguided。使用一个映射函数Wr来使得Wguided的维度匹配Whint,得到Ws'。其中对于Wr的训练使用MSEloss:

系列论文阅读之知识蒸馏(二)《FitNets : Hints for Thin Deep Nets》

(2) 另外一个是改造的softmax loss(具体见Hinton的论文):

系列论文阅读之知识蒸馏(二)《FitNets : Hints for Thin Deep Nets》

系列论文阅读之知识蒸馏(二)《FitNets : Hints for Thin Deep Nets》