【Mimic】《Mimicking Very Efficient Network for Object Detection》
二次学习(周志华教授)、knowledge distilling(Geoffrey Hinton)
实验比较多,但是抓住重点
- 比用imagenet 预训练的效果好
- 和baseline(big network)性能相仿,但是模型大大压缩
- 注意 1/2 其实参数量减少了 1/4,因为卷积是在两层之间
- 学backbone最后一层 feature map 结果比较好
- 可以偷师,就是 big network 和 small network 的 backbone 不同
- 最多减少了 1/8