papers with code - image classification - imagenet

papers with code - image classification - imagenet

NLP에서 주요하게 사용하는 Transformer가 Vison 분야에서도 적용되며 classification에서 SOTA를 뛰어넘고 있다.

ViT는 CNN을 넘는 성능을 나타내기도 했지만 매우 큰 데이터가 필요하다는 제약사항이 있다. 주로 많이 사용되는 거대한 데이터셋인 ImageNet으로도 ViT의 성능을 온전히 끌어내기 어렵다. 구글에서 사용하는 JFT 데이터셋과 같은 매우 거대한 데이터셋을 사용해야 기존 CNN SOTA를 뛰어넘는다.

CNN은 어떻게 적은 데이터만으로도 잘 학습하는지에 대한 해답을 inductive bias에서 찾는다. 위키피디아의 정의에 따르면 inductive bias란 "학습 시에 만나지 못했던 상황에 대하여 정확한 예측을 하기 위한 추가적인 가정"이다.

CNN은 locality와 translate equivariance와 같은 inductive bias가 있어 학습하지 않은 데이터의 문제를 쉽게 해결할 수 있는 visual representations를 얻을 수 있다. 반면에 transformer는 모든 픽셀 간의 상관관계를 파악해야 하므로 학습난이도가 높다. 복잡도가 높은 모든 픽셀 간의 관계를 나타내기 위해서는 큰 모델과 데이터셋이 필요할 수 있다. 매우 거대한 데이터셋으로 학습할 때 복잡한 상관관계를 학습할 수 있는데 지역적 정보의 학습을 강제해 복잡도를 낮추기 위해 global attention 대신 local attention을 사용하거나 ViT에 CNN을 접목하는 hybrid ViT-CNN model을 설계할 수 있다.

Introduction

CKA similarity (paper, code)를 사용해 유사도 비교

Goal:

Contributions:

Experiment

Representation Structure of ViTs and Convolutional Networks

ViT는 grid-like의 패턴이 뚜렷하고 하위 계층과 상위 계층 간의 유사성이 큰 비교적 균일한 계층 구조로 되어 있다. ResNet은 하위 계층과 상위 계층 사이의 유사성이 적고 명확한 구분이 있다. 즉, ViT 하위 계층은 ResNet의 하위 계층과 다른 방식으로 표현을 계산하며 ViT는 하위 계층과 상위 계층 간에 표현을 더 강력하게 전파한다.