BEiT-3: Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks

Abstract

최근 language, vision, 그리고 multimodal 사전 학습에 대한 융합이 나타나고 있습니다. 본 논문에서는 vision and vision-language task에서 SOTA 성능을 달성하는 범용 멀티모달 기반 모델 BEIT-3를 소개합니다. BEIT-3는 구체적으로 backbone architecture, pretraining task, model scaling up 세 가지 측면에서 발전을 시켰습니다.

저자는 양식별 인코딩을 모두 가능하게 하는 범용 모델링을 위한 Multiway Transformers를 소개합니다.

공유 백본을 기반으로 images (Imglish), texts (English), image-text pairs (“parallel sentences”), 에 대해 ****masked “language” modeling 을 수행합니다.

실험 결과에 따르면 BEIT-3는 object detection, semantic segmentation, image classification, visual reasoning, visual question answering, image captioning, cross-modal retrieval 태스크에서 state-of-the-art 성능을 얻었습니다.

Untitled (1).png

Introduction: The Big Convergence

최근 몇 년 동안 언어, 비전, 및 멀티모달을 크게 융합하여 사전 훈련하는 추세입니다. 대규모 데이터에 대한 대규모 사전 학습을 수행하여 모델을 다양한 다운스트림 작업으로 쉽게 활용할 수 있습니다. 본 연구에서, 다음 세 가지 측면에서 vision-language 사전 훈련을 위한 Big Convergence 트랜드를 발전시킵니다.

첫째,

네트워크 아키텍처의 통합은 우리가 여러 양식을 원활하게 처리할 수 있게 합니다.

vision-language modeling의 경우 다운스트림 작업의 특성이 다르기 때문에 트랜스포머를 적용하는 다양한 방법이 있습니다.

예를 들어, efficient retrieval을 위한 dual-encoder, generation task를 위한 encoder-decoder networks, image-text encoding을 위한 fusion-encoder 등이 있습니다.

그러나 대부분의 기초 모델은 특정 아키텍처에 따라 최종 태스크 형식을 수동으로 변환해야 합니다.

더욱이, 파라미터들은 일반적으로 modalities 간에 효과적으로 공유되지 않습니다.