결론

스크린샷 2022-03-16 오전 12.43.40.png

Sparse R-CNN은 Sparse 방식으로 객체 인식을 수행합니다. Sparse-In Sparse-Out의 방식으로 빠른 학습 속도를 보였고 유명한 One Stage 그리고 Two Stage Detector들과 대등한 성능을 보였습니다.

NMS라는 후처리를 하지 않기에 CPU-GPU간 병목이 많이줄었을 것이라 생각되지만 현재 SOTA 모델들과 비교하면 성능이 많이 뒤쳐집니다. 하지만 간단한 구조이기에 커스텀 방식에 따라 성능이 더 향상될 수 있을 것 같습니다.

초록

기존 객체 인식은 $H\times W$ 피쳐맵에 대해 사전 정의된 K개의 앵커를 사용하는 방식으로, Dense Object Candidates에 의존해왔습니다.

본 논문의 방식은 고정된 갯수(N)학습된 Object Proposals를 Object Recognition Head에 제공하여 Classification과 Location을 수행합니다.

수작업으로 만들어진 HWK개의 Object Candidates를 N개의 학습가능한 Proposals로 줄임으로써 Sparse R-CNN은 Object Candidates Design과 Many-To-One 레이블 할당과 관련된 노력을 하지 않아도 됩니다. 따라서 최종 예측은 NMS 후처리없이 바로 출력됩니다.

도입

객체 인식은 객체의 위치를 찾는 것과 카테고리를 인식하는 것을 목표로 합니다. Dense Prior는 Detectors에서 항상 중요한 부분이었습니다.

기존 컴퓨터비전에서 Classifier가 Dense Image Grid에 적용되는 Sliding Window Paradigm은 수십 년 동안 검출 방법을 이끌고 있습니다.

스크린샷 2022-03-14 오후 7.17.51.png

One Stage Detector의 현대 메인스트림은 위 그림과 같이 Dense Feature Map Grid 위의 앵커 박스 혹은 참조 포인트(Reference Points)를 사전 정의합니다. 그리고 객체의 바운딩 박스에 대한 상대적 규모오프셋을 예측합니다.

Screenshot from 2022-03-15 19-04-17.png

Two Stage 파이프라인은 적은 수의 Proposal 박스에서도 작동하지만, 위 그림처럼 Proposal 생성 알고리즘은 여전히 Dense Candidates를 생성합니다.

이러한 잘 정립된 방법은 학습 및 추론 속도가 빠르며 개념적으로 직관적이며 Robust한 성능을 냅니다.

그러나 Dense-Prior Detectors는 몇 가지 한계가 있습니다.

  1. 해당 파이프라인은 보통 불필요하고 중복되는 결과를 내어 NMS라는 후처리 기능이 필수입니다.

  2. 학습 시 Many-To-One 라벨 할당 문제가 모델이 경험적인(Heuristic) 할당 규칙에 민감해지게 합니다.

  3. 최종 성능은 크기, 종횡비 그리고 앵커 박스 수 등에 크게 영향을 받습니다.