Preprint, 2023.03.20
Introduction
Background
Close-set object detection: 학습 과정에서 정의된 클래스의 object detection
Open-set object detection: 학습 과정 외의 클래스의 object detection (or zero-shot)
Referring object detection: 자연어 input 으로 정의되는 임의의 object detection
Motivation
기존 close-set object detection에서 좋은 성능을 보였던 DINO model 을 open-set object, 나아가서 referring object detection 으로 확장하려 함.
선정의 이유: Open-set / referring object detection 을 문서 이해에도 (e.g. kv task) 쓸 수 있는 가능성이 있음
Propose
- 기존의 closed-set detector 를 open-set task 에 대응하도록 하는 방법으로 위와 같이 text encoder 의 feature 를 이용하여 detection feature 와 feature fusion 하는 방식이 제시
- 그러나 기존 방법들은 위 fusion의 (text encoder에서 뻗어나오는 화살표) 일부분만을 수행해왔음:
- Fast RCNN같은 detector는 대부분의 구조에서 text information과 상호작용하기 어려움
- CLIP같은 경우는 끝쪽에서만 multi-modality feature comparison 진행
이 논문에서는 transformer-based detection model 인 DINO를 활용하여 위와 같이 세 가지 fusion step을 제시
Contribution
- Closed-set detector인 DINO를 확장한 grounding DINO를 제안하여 여러 단계에서 vision-language modality fusion 진행. 이 fusion step이 효과적으로 open-set object detection 을 할 수 있도록 만듬