mtcnn理解三------边框的回归

参考博客

https://blog.****.net/zijin0802034/article/details/77685438

如下图所示:

mtcnn理解三------边框的回归

对于上图,绿色的框表示Ground Truth(就是人工标注的准确的飞机区域), 红色的框为我们的训练网络预测的飞机区域。那么即便红色的框被我们的网络分类器识别为飞机,但是由于红色的框定位不准(IoU<0.5), 那么这张图相当于没有正确的检测出飞机。 如果我们能对红色的框进行微调, 使得经过微调后的窗口跟准确窗口区域Ground Truth 更接近, 这样定位会更准确。 确实,Bounding-box regression 就是用来微调这个窗口的。

边框回归是什么?

对于窗口box一般使用四维向量(x,y,w,h)来表示, 分别表示窗口的中心点坐标和宽高。 对于图 2, 红色的框 P 代表网络初步预测的box,  绿色的框 G 代表目标的真实box区域 Ground Truth, 我们的目标是寻找一种关系(或称为映射,或称为网络), 网络的预测输出box 窗口 P 跟真实窗口 G 更接近.

mtcnn理解三------边框的回归

边框回归的目的既是:给定(Px,Py,Pw,Ph)寻找一种映射f, 使得mtcnn理解三------边框的回归

上述目的是如何实现的呢?即映射f是如何找到的呢?

那么经过何种变换才能从图 2 中的窗口 P 变为窗口Ĝ呢? 比较简单的思路就是: 平移+尺度放缩

step1: 先做平移,即先把p的中心坐标(px,py)移动到G的中心

mtcnn理解三------边框的回归

然后再做尺度缩放,因为真实的框会比推荐的框大,也可能小

mtcnn理解三------边框的回归

观察上面4个算式我们发现,有4个量dx(p), dy(p), Scal_w, Scal_h这4个量是未知的,所以没法构造上面的4个算式.下一步就是设计算法得到这4个量。

线性回归就是给定输入的特征向量 X, 学习一组参数 W, 使得经过线性回归后的值跟真实值 Y(Ground Truth)非常接近. 即Y≈WX

。 那么 Bounding-box 的回归,即反向传播时需要优化的是什么呢?反向传播时,我们已知网络这次的预测box, 红色框P(Px,Py,Pw,Ph),还知道真实的box G(Gx,Gy,Gw,Gh)

mtcnn理解三------边框的回归