深度学习论文: You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery及其PyTorch实现

You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery
PDF:https://arxiv.org/abs/1805.09512.pdf
PyTorch: https://github.com/shanglianlm0525/PyTorch-Networks
Official :https://github.com/CosmiQ/yolt

1 概述

卫星图像的目标检测和普通场景的目标检测最大的区别在于卫星图像尺寸很大比如16000x16000，并且其目标通常很小且容易聚集在一起。YOLT主要用于处理这类问题.
在卫星图像中，图片的分辨率一般用ground sample distance（GSD）来表示，比如最常见的卫星图像是30cm GSD。
深度学习论文: You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery及其PyTorch实现

2 YOLT

展示了卫星图像目标检测的主要几个难点以及YOLT的解决方案
深度学习论文: You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery及其PyTorch实现

2-1 卫星图像尺寸太大

由于卫星图像太大,难以直接训练.YOLT解决方案有将原始图像切块(15%重叠)，然后分别输入模型进行检测,拼接后使用NMS过滤得到最后检测结果。
深度学习论文: You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery及其PyTorch实现

2-2 小目标的检测难度大

1、修改网络结构，使得YOLOV2的stride变成16，而不是原始的32，这样有利于检测出大小在16x16–>32x32。

2、沿用YOLOV2中的passthrough layer，融合不同尺度的特征（52x52和26x26大小的特征），这种特征融合做法在目前大部分通用目标检测算法中被用来提升对小目标的检测效果。

3、不同尺度的检测模型融合，即Ensemble，原因是例如飞机和机场的尺度差异很大，因此采用不同尺度的输入训练检测模型，然后再融合检测结果得到最终输出。

修改后的网络结构为:
深度学习论文: You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery及其PyTorch实现

2-3 尺寸/方向多样

卫星图目标的尺寸/方向多样。卫星图是从空中拍摄的，因此角度不固定，像船、汽车的方向都可能和常规目标检测算法中的差别较大，因此检测难度大。针对这一点的解决方案是对数据做尺度变换，旋转等数据增强操作

2-4 目标数据太少

针对机场目标(数据太少)和其它目标分别训练了一个检测模型，这两个检测模型的输入图像尺度也不一样，测试图像时同理，最后将不同检测模型、不同chip的检测结果合并在一起就得到最终一张卫星图像的输出。
深度学习论文: You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery及其PyTorch实现