如何看待End-to-End Object Detection with Transformers?
公众号关注 “ML_NLP”
设为 “星标”,重磅干货,第一时间送达!
来自 | 知乎
地址 | https://www.zhihu.com/question/397624847/answer/1250073418
作者 | 罗若天不是真的屌
编辑 | 机器学习算法与自然语言处理公众号
本文仅作学术分享,若侵权,请联系后台删文处理
1 desk reject预定。(误)
2 训练时间劝退
3 代码好简单(我fmass就是不用detectron2(开玩笑的))
4 好激动!
5 把panoptic也塞进来实在太厉害了,感觉一篇paper塞了两篇的东西。
6 我就说怎么塞的进来。原来arxiv版本不止14页,估计submit的版本只有detection
7 只要你比别人的epoch多个20倍,你就能比别人效果好。
8 跟小伙伴讨论了一下。觉得文章里说fpn能解决小物件可能是骗人的。因为连panoptic都做了,fpn怎么可能没做。
9 syncbn都没用呢
Takeaways:
1 transformer encoder很有用。faster-rcnn里面也请塞塞试试。(当然啦反正本质上idea都是non-local,gcn什么的,但是经验证明transformer这个设计的结构是真的万能)
2 第一反应还是会被直接回归box吓到,毕竟主流方法根本扔不掉anchor。就算centernet也是基于center回归hw(但是center本身不是回归的,同时center也可以认为是anchor)。这里是直接连center也回归了,真是牛啊,只要你能训练500epoch你啥不能回归。
3 object query也是不讲道理。虽然可以跟anchor联系在一起(别的回答有说),但是你再看看,他其实就是为了用transformer做set prediction,他就是一个必要的component,不需要一定有啥含义,他学出来是什么就是什么。
4 本质上做的事情就是拿transformer decoder做set predictor,然后把这个idea用到object detection(把object detection看作set prediction task好像也不是首创吧)。但是这中间迈得步子有点大。怎么说呢,告诉我用transformer来做detection,我也想到改怎么做合适,因为会被以前的set prediction和detection的思维定势限制住,所以真的是看的时候感觉哐哐哐锤我脑门。(当然也可能是我不是太聪明)
5 就是看set prediction这个task(disclaimer:没有追的很仔细),elucidating image-to-set这片paper也都没有用到parallel decoding的,还是考虑的把set prediciton变成一个sequence generation+auto-regressive。用object queries+parallel decoding已经是属于一个新的用法了吧。(当然啦,翻译里面有non-autogressive,但是那个setting和set prediciton不一样,怎么说呢,告诉我我能connect上,但是让我自己正向的想我想不到)
而且实际上,对set prediction, non-autogressive要比autoregressive的方法要更make sense多。
6 这个panoptic segmentation也是好看,简单直接。
7 end to end是真的暴力。如果是我我能到map25我觉得都已经很满足了,竟然能暴力的堆到42,瑞思白 (如果pcv能跑500个epoch就好了)
重磅!忆臻自然语言处理-学术微信交流群已成立
可以扫描下方二维码,小助手将会邀请您入群交流,
注意:请大家添加时修改备注为 [学校/公司 + 姓名 + 方向]
例如 —— 哈工大+张三+对话系统。
号主,微商请自觉绕道。谢谢!
推荐阅读:
深度学习中的多任务学习(Multi-task-learning)——keras实现