如何看待End-to-End Object Detection with Transformers？

公众号关注 “ML_NLP”

设为 “星标”，重磅干货，第一时间送达！

来自 | 知乎

地址 | https://www.zhihu.com/question/397624847/answer/1250073418

作者 | 罗若天不是真的屌

编辑 | 机器学习算法与自然语言处理公众号

本文仅作学术分享，若侵权，请联系后台删文处理

1 desk reject预定。（误）

2 训练时间劝退

3 代码好简单（我fmass就是不用detectron2（开玩笑的））

4 好激动！

5 把panoptic也塞进来实在太厉害了，感觉一篇paper塞了两篇的东西。

6 我就说怎么塞的进来。原来arxiv版本不止14页，估计submit的版本只有detection

7 只要你比别人的epoch多个20倍，你就能比别人效果好。

8 跟小伙伴讨论了一下。觉得文章里说fpn能解决小物件可能是骗人的。因为连panoptic都做了，fpn怎么可能没做。

9 syncbn都没用呢

Takeaways:

1 transformer encoder很有用。faster-rcnn里面也请塞塞试试。（当然啦反正本质上idea都是non-local，gcn什么的，但是经验证明transformer这个设计的结构是真的万能）

2 第一反应还是会被直接回归box吓到，毕竟主流方法根本扔不掉anchor。就算centernet也是基于center回归hw（但是center本身不是回归的，同时center也可以认为是anchor）。这里是直接连center也回归了，真是牛啊，只要你能训练500epoch你啥不能回归。

3 object query也是不讲道理。虽然可以跟anchor联系在一起（别的回答有说），但是你再看看，他其实就是为了用transformer做set prediction，他就是一个必要的component，不需要一定有啥含义，他学出来是什么就是什么。

4 本质上做的事情就是拿transformer decoder做set predictor，然后把这个idea用到object detection（把object detection看作set prediction task好像也不是首创吧）。但是这中间迈得步子有点大。怎么说呢，告诉我用transformer来做detection，我也想到改怎么做合适，因为会被以前的set prediction和detection的思维定势限制住，所以真的是看的时候感觉哐哐哐锤我脑门。（当然也可能是我不是太聪明）

5 就是看set prediction这个task（disclaimer：没有追的很仔细），elucidating image-to-set这片paper也都没有用到parallel decoding的，还是考虑的把set prediciton变成一个sequence generation+auto-regressive。用object queries+parallel decoding已经是属于一个新的用法了吧。（当然啦，翻译里面有non-autogressive，但是那个setting和set prediciton不一样，怎么说呢，告诉我我能connect上，但是让我自己正向的想我想不到）

而且实际上，对set prediction， non-autogressive要比autoregressive的方法要更make sense多。

6 这个panoptic segmentation也是好看，简单直接。

7 end to end是真的暴力。如果是我我能到map25我觉得都已经很满足了，竟然能暴力的堆到42，瑞思白（如果pcv能跑500个epoch就好了）

重磅！忆臻自然语言处理-学术微信交流群已成立

可以扫描下方二维码，小助手将会邀请您入群交流，

注意：请大家添加时修改备注为 [学校/公司 + 姓名 + 方向]

例如 —— 哈工大+张三+对话系统。

号主，微商请自觉绕道。谢谢！

如何看待End-to-End Object Detection with Transformers？