摘要

近年来，图像分类模型不断发展，但由于其结构简单、模块化，大多数随之出现下游应用如目标检测、语义分割等仍然采用ResNet 变体作为 backbone。我们提出了一个模块化的 Split-Attention block，使注意力能够跨越 feature map group。通过叠加这些 ResNet 风格的 Split-Attention block，我们得到了一个新的 ResNet 变体，我们称之为 ResNeSt 。我们的网络保留了整个ResNet 结构，可直接用于下游任务而不会增加计算成本。ResNeSt 模型的性能优于其他具有相似模型复杂性的网络。例如，ResNeSt-50 在 ImageNet 使用单裁切 (crop) 大小为 224×224，达到了 81.13% 的 top-1 精度，比以前最佳的 ResNet 变体的精度高出 1% 以上。这一改进也有助于下游任务，包括目标检测、实例分割和语义分割。例如，通过简单地用 ResNeSt-50 替换ResNet-50 backbone，将 MS-COCO 上的 FasterRCNN 的 mAP 从 39.25% 提高到 42.33%，将 ADE20K 上的 DeeplabV3 的mAP 从 42.1% 提高到 45.1%。

图示

【论文阅读】ResNeSt: Split-Attention Network

性能

【论文阅读】ResNeSt: Split-Attention Network

【论文阅读】ResNeSt: Split-Attention Network

摘要

图示

性能

相关推荐