MegDet：大mini-batch 检测器

MegDet为face++ 提出的通用检测框架。整体结构为类似于faster RCNN的2层结构，基础网络类似于Resnet50。

获得了2017 COCO检测第一名，发表于cvpr 2018。

文章主要讲解大mini-batch这个训练技巧，实现了在大mini-batch下的精度提升1.5个点。

小mini-batch的缺点：

（1）训练时间太长。

（2）小的batch对于batch normalization 层的参数（mean,var）计算很不利。（mean,var）肯定是batch越大，计算的误差越小，越接近整体数据的（mean,var）。Group Norm那篇文章中实验的batch norm的最小值是16比较OK，小于16的batchsize会使得（mean,var）不准确。

（3）对于检测框架中，小的batch中会存在正负样本严重不平衡的现象。从下图中可以看出，256-batch会比16-batch具备更大的正负样本比例。

MegDet：大mini-batch 检测器

下图（a）（b）为正负样本比例较少的情形，（c）（d）为正负样本比例较大的情况。可以看出，当正负样本比例较大时，正样本周围的绿色框会更多更集中，更有利于对目标位置的回归。

MegDet：大mini-batch 检测器

大mini-batch需要大的学习速率：

文章基于2方面做了解释。

（1）基于Linear Scaling Rule 原则，对于进行多机器训练的大的mini-batch，假设batch size增加了k倍，准确的说应该是每个机器吃的batch size不变，增加了k倍的显卡，那么学习速率也应该增加为原来的k倍，即learning_rate_hat=k*learning_rate。