Masked Autoencoders Are Scalable Vision Learners

이미지에 포함된 일부의 패치만을 가지고 원본 이미지를 복구하는 encoder-decoder 구조를 제안하고, 이러한 방식이 성능에 미치는 영향을 분석한 논문이다.

Motivation

NLP 분야의 BERT와 같은 모델들은 문장의 일부 토큰을 마스킹하고 원래 문장을 예측하도록 학습하는 masked autoencoding 방식으로 사전학습을 수행함으로써 좀더 일반화가 잘 된 모델을 얻을 수 있다.

컴퓨터 비전 분야에서도 이와 유사하게 원본 이미지의 일부가 제거된 이미지를 복원시키는 문제를 풀어내도록 학습하는 방법이 제안되었지만, NLP 분야만큼의 성공적인 개선은 이루어지지 않았다.

저자들은NLP와 컴퓨터 비전에서 masked autoencoding의 효과가 다른 이유에 대해 의문을 가지고 다음과 같은 관점들에 대한 해답을 얻기 위한 연구를 진행했다.

컴퓨터 비전에서 Convolution Network를 주로 사용할 때에는 구조적인 차이로 인한 것으로 분석할 수도 있었지만, 유사한 구조를 가지는 Vision Transformer에서도 동일한 문제가 나타나는 것은 이상하다.
컴퓨터 비전과 언어는 정보의 밀도가 다르다. 문장은 토큰 하나하나가 큰 의미(high semantic) 를 담고 있지만 컴퓨터 비전은 배경처럼 의미가 덜 중요한 부분(low semantic)과 물체처럼 중요한 부분이 분산되어있다.
텍스트를 복원하는 디코더와 이미지를 복원하는 디코더는 서로 다른 역할을 한다고 볼 수 있다. 텍스트를 복원하는 디코더는 복원해야하는 대상 하나하나가 중요한 의미를 담고 있는 word이다. 하지만 컴퓨터 비전에서는 픽셀을 복원하며, 복원해야하는 픽셀중에는 배경처럼 정보가 적은 것도 포함되어 있다.

Untitled

전통적인 오토인코더와는 다르게 저자들이 제안한 구조는 asymmetric한 구조를 가진다. 인코더는 이미지의 일부분만 가지고 latent representation을 추출하며, 디코더는 인코딩한 패치와 마스킹된 패치를 포함한 전체 이미지에 대해 복원을 하게 된다.

ViT 의 방식과 마찬가지로 이미지를 겹치지 않는 패치들로 나눈 후 랜덤하게 선택하여 마스킹을 수행한다. 이 때 높은 비율의 패치를 선택하게 되는데, 이 과정은 redundancy가 크게 제거되는 효과를 만든다고 한다.

Untitled

많은 비율이 제거된 패치들로부터 생성된 이미지는 정답과 차이가 있기는 하지만 이미지로부터 얻을 수 있는 시각적인 정보 자체는 남아있는 것을 확인할 수 있다.