Screenshot from 2022-01-18 19-16-14.png

초록

ViTs는 SOTA 이미지 분류 모델로 ConvNets를 대체(Superseded)했지만 기본 ViTs는 Object Detection과 Semantic Segmentation과 같은 일반적인 Computer Vision 태스크에 적용되기 어려웠습니다.

Swin Transformer와 같이 여러 ConvNet을 재도입한(Reintroduced) 계층적 트랜스포머는 트랜스포머를 일반 Vision Backbone으로 실용적으로 사용할 수 있게 하고 다양한 Vision 작업에서 놀라운 성능을 입증했습니다.

하지만 이러한 하이브리드 방식의 효과는 여전히 컨볼루션에 내재된 귀납적 편향(Inductive Biase)보다는 트랜스포머의 내재적 우월성(Intrinsic Superiority)에 크게 기인합니다.

본 연구는 디자인 공간들(The Design Spaces)을 재시험하고 순수한 ConvNet이 달성할 수 있는 것의 한계를 시험합니다.

비전 Transformer 설계를 향해 표준 ResNet을 점진적으로 "현대화(Modernize)"하고, 그 과정에서 성능 차이에 기여하는 몇 가지 핵심 구성요소를 발견합니다.

이 연구의 결과는 ConvNeXt라는 순수 ConvNet 모델 제품군입니다. 표준 ConvNet 모듈로 구성된 ConvNeXts는 정확도 및 확장성 측면에서 Transformer와 경쟁하여 ImageNet Top-1의 정확도를 87.8% 달성하고 표준 ConvNet의 단순성과 효율성을 유지하면서 COCO Detection 및 ADE20K Segmentation에서 Swin Transformer를 능가합니다.

도입

ConvNets는 다방면의 Computer Vision 응용에 ConvNets가 잘 맞을수 있도록 여러 내재된 귀납적 편향(Inductive Biases)를 가지고 있습니다.

가장 중요한 귀납적 편향은 평행이동 불변량(Translation Equivariance)으로, 이는 Object Detection과 같은 태스크에서 필요한 속성입니다.

또한 ConvNets는 Sliding Window 방식을 사용할 때, 연산들이 공유되기 때문에 본질적으로(Inherently) 효과적입니다.

2010년대 Region-Based Detectors가 시각 인식 시스템에서 ConvNets를 근본적인 Building Block으로 올려놓았을 때, NLP는 다른 방식의 길을 걸어왔습니다. Transformers가 RNN 계열을 대체하여 지배적인 Backbone 구조가 되었습니다.

언어 도메인과 Vision 도메인 간의 관심 영역의 차이에도 불구하고, 두 개의 흐름은 ViTs(Vision Transformer)의 출현으로 2020년에 하나로 수렴하였습니다.

하나의 이미지를 하나의 Patches 시퀀스로 분할하는 초기 Patchify 레이어를 제외하고, ViT는 이미지 한정이 아닌 귀납적 편향을 도입하였고, 기존 NLP Transformer에서 최소한의 변경만 만들었습니다.

ViT의 한 가지 중요한 점은 확장 방식(Scaling Behavior)입니다. 커다란 모델과 데이터셋 크기의 도움으로, Transformers는 큰 격차로(Significant Margin) 표준 ResNet을 능가하게 되었습니다.

2010년 대 Computer Vision 태스크의 솔루션들은 Sliding Window와 Fully Convolutional 패러다임에 의존해왔는데, 이러한 ConvNets의 귀납적 편향이 없는 기본 ViT 모델은 일반적 Vision Backbone으로 채택되기는 쉽지 않았습니다.

가장 큰 걸림돌은 ViT의 Global Attention 구조인데, 이는 입력 크기에 대한 제곱의 복잡도를 가집니다. 이로 인해 ViT는 ImageNet 분류에 적합할 수 있지만, 고해상도 입력들은 다루기 어려워(Intractable)집니다.

계층적 Transformers는 이러한 간극을 매우기 위한 하이브리드 방식을 사용합니다. Sliding Window 전략을 Transformers에 재도입했고, 그 덕분에 Transformers는 ConvNets와 더 비슷하게 행동할 수 있게 되었습니다.