Introduction
Motivation
NLP 및 다양한 분야에서 사용되는 BERT와 같은 Transformer 기반의 모델들은 $O(n^2)$의 시간 및 공간 복잡도를 가진다는 문제점(구체적으로는 모든 query, key vector끼리의 Attention을 수행하는 Self-Attention때문)이 있습니다. 이로 인해 모델들은 input sequence의 길이(토큰의 수)가 증가할수록 복잡도가 상당히 증가합니다.
위와 같은 문제들로 인해 대부분의 Transformer 기반 모델들은 input sequence 길이에 제한을 두고 있습니다. 하지만 이러한 길이 제한은 Question & Answering, Text Summarization과 같은 길이가 긴 sequence를 처리해야 하는 task들에서는 성능 저하를 초래합니다.
Big Bird는 Transformer의 Full Self-Attention을 approximation할 수 있는 Block Sparse Attention이라는 방법론을 제안하여 위에서 언급한 문제를 해결합니다.
Contributions
- 기존 Transformer 모델보다 8배 더 긴 input sequence를 다룰 수 있는 Big Bird 모델 제안 : Transformer 기반 모델들은 일반적으로 512 tokens까지 처리가 가능하지만 Big Bird 모델은 4096 tokens을 처리 가능
- Full Self-Attention을 approximation하여 효율적인 Attention을 수행할 수 있는 Sparse Attention 방법론을 제안 : Random Attention, Window Attention, Global Attention으로 구성된 Block Sparse Attention 방법론 제안
Related Work
Long Sequence를 처리하기 위한 연구들은 다음과 같은 두 가지 방향으로 진행되어 왔습니다.
- Sequence 길이가 제한된 모델을 여러번 사용
- 문서를 여러 part로 나누어 모델에 여러번 입력(대표적으로 sliding window)시키고 output을 concat하여 사용하거나, 긴 문서에서 관련있는 부분만 찾는데 사용
- 하지만 구현에 있어 상당한 노력이 필요하고 학습시키기 어렵다는 문제점을 가지고 있음
- 대표적인 연구들 : SpanBERT, ORQA, REALM, RAG
- Full Attention을 사용하지 않고 Sparse Attention을 도입하여 연산량을 줄이려 시도