DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

Introduction

DETR은 Transformer 기반의 detector algorithm으로 object detection 문제를 set prediction task로 보고 bipartite graph matching을 통해 label을 assign하는 방식을 사용합니다.

DETR의 큰 단점은 학습 수렴이 느리며 query의 의미가 분명하지 않다(unclear)는 점입니다.

DETR의 단점을 개선한 모델들이 많이 제안되었지만 여전히 SOTA의 classical model(DyHead, Swin, SwinV2, HTC++, etc..)에 비해 성능이 떨어집니다. 또한 DETR 계열 모델의 scalability에 대한 연구 또한 보고된 적이 없습니다. (large backbone, large-scale data set)

Fig. 1.

저자는 DN-DETR, DAB-DETR, 그리고 Deformable DETR에 사용된 기술과 새로운 몇가지 테크닉을 추가하여 DINO라는 새로운 모델을 만들었고 다른 DETR 모델들에 비해 높은 성능을 보였습니다.

Table 1. ResNet50 backbone. 1x setting(12epoch)

또한 scalability 실험을 통해 COCO test-dev leaderboard에서 63.3 AP라는 새로운 기록을 달성하였습니다.

main contribution은 다음과 같습니다.

3 가지 새로운 technique을 사용한 새로운 DETR 계열의 모델인 DINO를 개발.
여러 다른 DETR design choice에 대한 ablation study를 진행하여 ResNet-50과 multi-scale feature를 사용하여 12 epoch에서 48.3AP, 36 epoch에서 51.0AP를 달성. small object에 대해 +7.4AP
Object365 dataset, SwinL backbone을 사용하여 COCO val2017에 대해 63.2AP, COCO test-dev에 대해 63.3AP을 보임으로써 DETR 계열 모델 처음으로 classical model을 넘어서는 SOTA 성능을 보임.

Proposed Method

기존의 DETR모델과 동일하게 backbone과 transformer구조를 가집니다.

backbone에서 얻은 multi-scale feature를 positional embedding과 함께 Encoder에 입력합니다. Encoder에서 출력된 feature를 새로 제안하는 mixed query selection 전략으로 anchor를 초기화 하여 decoder의 positional query로 사용합니다. 이때 contents query는 초기화 하지 않고 학습되도록 합니다.

Decoder에서 initialized anchor와 learnable content query를 deformable attention을 사용하여 update합니다. 최종 출력은 refined anchor와 content query로 예측된 classification 결과 입니다.