최근 NLP task들에서 long input을 다룰 수 있는 Transformer 모델들이 좋은 성능을 기록하였습니다. 또한, Transformer 모델의 크기를 키우는 것이 성능에 도움이 된다는 연구들이 보고되고 있습니다.
위의 두 가지 가설을 확인하기 위해 논문의 저자들은 모델의 input length와 size를 동시에 늘리고 그 효과를 확인하고자 했습니다. 구체적으로, 논문에서는 long-input transformer attention과 scalable T5의 pre-training ideas을 사용하여 두 가지 목표를 해결합니다.
T5는 NLP의 모든 task들을 Text-to-Text format으로 변환하여 해결합니다. 따라서, T5는 Transformer의 encoder와 decoder를 모두 사용하며 아래와 같이 task에 해당하는 string들과 input string을 결합하여 모델의 입력으로 사용합니다.
T5는 SpanBERT의 pre-training 아이디어를 차용하여 기본 BERT처럼 token 하나만을 masking하고 이를 예측하던 MLM(Masked Language Model) task에서 벗어나 아래의 그림과 같이 연속된 여러 token들을 masking하고 이를 예측하는 SCO(Span Corrpution Objective) task를 통해 pre-training됩니다.