DETR은 Transformer 기반의 detector algorithm으로 object detection 문제를 set prediction task로 보고 bipartite graph matching을 통해 label을 assign하는 방식을 사용합니다.
DETR의 큰 단점은 학습 수렴이 느리며 query의 의미가 분명하지 않다(unclear)는 점입니다.
DETR의 단점을 개선한 모델들이 많이 제안되었지만 여전히 SOTA의 classical model(DyHead, Swin, SwinV2, HTC++, etc..)에 비해 성능이 떨어집니다. 또한 DETR 계열 모델의 scalability에 대한 연구 또한 보고된 적이 없습니다. (large backbone, large-scale data set)
Fig. 1.
저자는 DN-DETR, DAB-DETR, 그리고 Deformable DETR에 사용된 기술과 새로운 몇가지 테크닉을 추가하여 DINO라는 새로운 모델을 만들었고 다른 DETR 모델들에 비해 높은 성능을 보였습니다.
Table 1. ResNet50 backbone. 1x setting(12epoch)
또한 scalability 실험을 통해 COCO test-dev leaderboard에서 63.3 AP라는 새로운 기록을 달성하였습니다.
main contribution은 다음과 같습니다.
기존의 DETR모델과 동일하게 backbone과 transformer구조를 가집니다.
backbone에서 얻은 multi-scale feature를 positional embedding과 함께 Encoder에 입력합니다. Encoder에서 출력된 feature를 새로 제안하는 mixed query selection 전략으로 anchor를 초기화 하여 decoder의 positional query로 사용합니다. 이때 contents query는 초기화 하지 않고 학습되도록 합니다.
Decoder에서 initialized anchor와 learnable content query를 deformable attention을 사용하여 update합니다. 최종 출력은 refined anchor와 content query로 예측된 classification 결과 입니다.