Untitled

Introduction

많은 mainstream detectors 들이 anchor-based labels assignment 나 non-maximum suppression(NMS)와 같은 hand-crafted design을 사용하고 있습니다.

이러한 방법들은 이미 훌륭한 성능을 보였지만 fully end-to-end training을 위해 NMS를 사용하지 않기 위한 시도들이 있어 왔습니다. (Learnable NMS, Soft NMS, and other NMS variants, CenterNet, DETR etc..) 그러나 NMS variants와 CenterNet의 경우 효과적인 duplicate removal을 위한 방법을 제안하지만 end-to-end training 방법을 제공하지 않습니다. DETR은 긴 학습 시간과 small object에 대해 낮은 성능을 보인다는 단점이 있습니다.

이 논문에서는 prediction-aware one-to-one (POTO) label assignment와 3D Max Filtering (3DMF)을 제안합니다. 또한 auxiliary loss 추가하므로써 baseline의 성능을 넘어서는 것을 보여줍니다.

Untitled

Proposed Method

Untitled

Prediction-aware One-To-One (POTO) label

Untitled

여기서 $c_i, b_i$는 각각 category label, bounding box coordinate를 의미합니다.

POTO의 목표는 적합한 permutation $\hat{\pi} \in \Pi^{N}_{G}$을 찾는 것입니다. G와 N은 각각 ground truth의 개수, prediction의 개수입니다. (G << N)

기존 연구(DETR)에서는 이 문제를 bipartite matching 문제로 보고 foreground loss를 matching cost로 사용해 Hungarian algorithm으로 풀어냈습니다.

Untitled

하지만 foreground loss는 optimization issue, 즉, unbalanced training samples, joint training of multiple tasks를 다루기 위해 추가적인 weights를 필요로 합니다. Table 1 이 방법이 최적이 아님을 확인 할 수 있습니다.

이에 따라 저자들은 better assignment를 위한 더 효과적인 formulation을 제안합니다.