Do Vision Transformers See Like Convolutional Neural Networks?

papers with code - image classification - imagenet

NLP에서 주요하게 사용하는 Transformer가 Vison 분야에서도 적용되며 classification에서 SOTA를 뛰어넘고 있다.

ViT는 CNN을 넘는 성능을 나타내기도 했지만 매우 큰 데이터가 필요하다는 제약사항이 있다. 주로 많이 사용되는 거대한 데이터셋인 ImageNet으로도 ViT의 성능을 온전히 끌어내기 어렵다. 구글에서 사용하는 JFT 데이터셋과 같은 매우 거대한 데이터셋을 사용해야 기존 CNN SOTA를 뛰어넘는다.

CNN은 어떻게 적은 데이터만으로도 잘 학습하는지에 대한 해답을 inductive bias에서 찾는다. 위키피디아의 정의에 따르면 inductive bias란 "학습 시에 만나지 못했던 상황에 대하여 정확한 예측을 하기 위한 추가적인 가정"이다.

CNN은 locality와 translate equivariance와 같은 inductive bias가 있어 학습하지 않은 데이터의 문제를 쉽게 해결할 수 있는 visual representations를 얻을 수 있다. 반면에 transformer는 모든 픽셀 간의 상관관계를 파악해야 하므로 학습난이도가 높다. 복잡도가 높은 모든 픽셀 간의 관계를 나타내기 위해서는 큰 모델과 데이터셋이 필요할 수 있다. 매우 거대한 데이터셋으로 학습할 때 복잡한 상관관계를 학습할 수 있는데 지역적 정보의 학습을 강제해 복잡도를 낮추기 위해 global attention 대신 local attention을 사용하거나 ViT에 CNN을 접목하는 hybrid ViT-CNN model을 설계할 수 있다.

Introduction

CKA similarity (paper, code)를 사용해 유사도 비교

Goal:

ViT의 표현 방식, image task를 해결하는 방법에 차이가 있는지 이해하는 것

Contributions:

ResNet과 달리 ViT가 모든 레이어에 걸치 균일한 representations을 갖는다는 것을 보인다. 이러한 결과가 나타나는 것은 ViT의 residual connections이 하위 layers에서 상위 layers로 feature가 강력하게 전파하는 역할을 하기 때문이다.
ViT는 CNN을 사용해 local information이 하위 레이어에서 강제로 하드코딩되는 ResNet과 달리 하위 레이어에서 global information을 사용한다. 이 때문에 spatial information을 활용이 달라진다. 추가적으로 spatial localization과 classification method간의 연관점을 찾아 왜 input spatial information이 잘 보존되는지 조사한다.
ViT의 균일한 내부 구조에서 Skip connection이 ResNets보다 ViT에 더욱 큰 영향을 받아 performance와 representation similarity가 크게 변한다.
~~높은 quality intermediate representations에 대한 중요성을 나타내는 linear probes study와 함께 transfer learning에서 데이터셋 크기의 영향을 연구한다.~~

Experiment

Representation Structure of ViTs and Convolutional Networks

ViT는 grid-like의 패턴이 뚜렷하고 하위 계층과 상위 계층 간의 유사성이 큰 비교적 균일한 계층 구조로 되어 있다. ResNet은 하위 계층과 상위 계층 사이의 유사성이 적고 명확한 구분이 있다. 즉, ViT 하위 계층은 ResNet의 하위 계층과 다른 방식으로 표현을 계산하며 ViT는 하위 계층과 상위 계층 간에 표현을 더 강력하게 전파한다.