Untitled

Preprint, 2023.03.20

Introduction


Untitled

Background

Close-set object detection: 학습 과정에서 정의된 클래스의 object detection

Open-set object detection: 학습 과정 외의 클래스의 object detection (or zero-shot)

Referring object detection: 자연어 input 으로 정의되는 임의의 object detection

Motivation

기존 close-set object detection에서 좋은 성능을 보였던 DINO model 을 open-set object, 나아가서 referring object detection 으로 확장하려 함.

선정의 이유: Open-set / referring object detection 을 문서 이해에도 (e.g. kv task) 쓸 수 있는 가능성이 있음

Propose

Untitled

이 논문에서는 transformer-based detection model 인 DINO를 활용하여 위와 같이 세 가지 fusion step을 제시

Contribution

  1. Closed-set detector인 DINO를 확장한 grounding DINO를 제안하여 여러 단계에서 vision-language modality fusion 진행. 이 fusion step이 효과적으로 open-set object detection 을 할 수 있도록 만듬