Introduction

Motivation

최근 NLP task들에서 long input을 다룰 수 있는 Transformer 모델들이 좋은 성능을 기록하였습니다. 또한, Transformer 모델의 크기를 키우는 것이 성능에 도움이 된다는 연구들이 보고되고 있습니다.

위의 두 가지 가설을 확인하기 위해 논문의 저자들은 모델의 input length와 size를 동시에 늘리고 그 효과를 확인하고자 했습니다. 구체적으로, 논문에서는 long-input transformer attention과 scalable T5의 pre-training ideas을 사용하여 두 가지 목표를 해결합니다.

Untitled

Contributions

  1. 모델의 input length와 size를 동시에 키울 수 있는 LongT5 모델을 제안.
  2. ETC의 local/global attention을 모방하여 만든 새로운 attention mechanism(TGlobal)을 제안.
  3. Vanilla T5와 LongT5 모델의 input length와 size를 늘렸을 때의 성능 분석 제공.
  4. ArXiv, PubMed, BigPatent, MediaSum과 같은 여러 데이터셋에서 SOTA 성능 달성.

Proposed Method

Background

  1. Text-To-Text Transfer Transformer (T5)

T5는 NLP의 모든 task들을 Text-to-Text format으로 변환하여 해결합니다. 따라서, T5는 Transformer의 encoder와 decoder를 모두 사용하며 아래와 같이 task에 해당하는 string들과 input string을 결합하여 모델의 입력으로 사용합니다.

Untitled

T5는 SpanBERT의 pre-training 아이디어를 차용하여 기본 BERT처럼 token 하나만을 masking하고 이를 예측하던 MLM(Masked Language Model) task에서 벗어나 아래의 그림과 같이 연속된 여러 token들을 masking하고 이를 예측하는 SCO(Span Corrpution Objective) task를 통해 pre-training됩니다.