Introduction

Motivation

저자들이 이 연구를 진행한 motivation은 다음과 같이 세 가지를 들 수 있습니다.

Importance of Spatio-Visual Relations

Limitations of Sequence Labeling

Resorting to Encoder-Decoder Models

위의 motivation들로 인해 저자들은 Multi-modal을 처리할 수 있고 Spatial 정보를 잘 활용하며 Encoder-decoder 구조를 사용하는 Transformer 기반의 모델인 TILT(Text-Image-Layout Transformer)를 제안하였습니다.

Untitled

Contributions

  1. Key Information Extraction, Question Answering, Document Classification 등의 task에서 복잡한 전처리 및 후처리가 없이 End-to-End로 학습시킬 수 있는 방법론 제안 및 SOTA 성능 달성
  2. 풍부한 공간 및 시각 정보를 Transformer에서 사용할 수 있는 방법론을 제안하여 text, layout, image 정보를 전부 활용할 수 있게 함

Proposed Method

Model Architecture

TILT 모델의 구조를 설명하기 전에 기본 Transformer(Vanilla Transformer)의 self-attention에 대해 되짚어볼 필요가 있습니다.

Transformer의 Self-attention은 다음과 같은 수식을 갖습니다. 아래에서 $X$는 $n$개의 inpu tokens에 대한 embedding matrix이고 $Q$, $K$, $V$는 $X$에 대한 query, key, value입니다. $B$는 attention bias로 기본 Transformer의 경우엔 해당 값이 영벡터가 됩니다. 두번째 수식에서 $S$는 token embedding, $P$는 position embedding을 의미하고 이들의 합이 최종적인 임베딩 벡터인 $X$가 됩니다.s

Untitled