이미지에 포함된 일부의 패치만을 가지고 원본 이미지를 복구하는 encoder-decoder 구조를 제안하고, 이러한 방식이 성능에 미치는 영향을 분석한 논문이다.
NLP 분야의 BERT와 같은 모델들은 문장의 일부 토큰을 마스킹하고 원래 문장을 예측하도록 학습하는 masked autoencoding 방식으로 사전학습을 수행함으로써 좀더 일반화가 잘 된 모델을 얻을 수 있다.
컴퓨터 비전 분야에서도 이와 유사하게 원본 이미지의 일부가 제거된 이미지를 복원시키는 문제를 풀어내도록 학습하는 방법이 제안되었지만, NLP 분야만큼의 성공적인 개선은 이루어지지 않았다.
저자들은NLP와 컴퓨터 비전에서 masked autoencoding의 효과가 다른 이유에 대해 의문을 가지고 다음과 같은 관점들에 대한 해답을 얻기 위한 연구를 진행했다.
전통적인 오토인코더와는 다르게 저자들이 제안한 구조는 asymmetric한 구조를 가진다. 인코더는 이미지의 일부분만 가지고 latent representation을 추출하며, 디코더는 인코딩한 패치와 마스킹된 패치를 포함한 전체 이미지에 대해 복원을 하게 된다.
ViT 의 방식과 마찬가지로 이미지를 겹치지 않는 패치들로 나눈 후 랜덤하게 선택하여 마스킹을 수행한다. 이 때 높은 비율의 패치를 선택하게 되는데, 이 과정은 redundancy가 크게 제거되는 효과를 만든다고 한다.
많은 비율이 제거된 패치들로부터 생성된 이미지는 정답과 차이가 있기는 하지만 이미지로부터 얻을 수 있는 시각적인 정보 자체는 남아있는 것을 확인할 수 있다.