Introduction

Untitled

Motivation

NLP 및 다양한 분야에서 사용되는 BERT와 같은 Transformer 기반의 모델들은 $O(n^2)$의 시간 및 공간 복잡도를 가진다는 문제점(구체적으로는 모든 query, key vector끼리의 Attention을 수행하는 Self-Attention때문)이 있습니다. 이로 인해 모델들은 input sequence의 길이(토큰의 수)가 증가할수록 복잡도가 상당히 증가합니다.

위와 같은 문제들로 인해 대부분의 Transformer 기반 모델들은 input sequence 길이에 제한을 두고 있습니다. 하지만 이러한 길이 제한은 Question & Answering, Text Summarization과 같은 길이가 긴 sequence를 처리해야 하는 task들에서는 성능 저하를 초래합니다.

Big Bird는 Transformer의 Full Self-Attention을 approximation할 수 있는 Block Sparse Attention이라는 방법론을 제안하여 위에서 언급한 문제를 해결합니다.

Contributions

Related Work

Long Sequence를 처리하기 위한 연구들은 다음과 같은 두 가지 방향으로 진행되어 왔습니다.

Untitled