Introduction
Motivation
저자들이 이 연구를 진행한 motivation은 다음과 같이 세 가지를 들 수 있습니다.
Importance of Spatio-Visual Relations
-
다음의 figure와 같이 text 정보만으로 문서의 내용을 완벽하게 파악하기란 어렵습니다.

-
따라서, 문서의 내용을 완벽하게 이해하기 위해서는 text 정보뿐만 아니라, 공간 정보(layout)와 이미지 정보가 모두 필요하고 이를 통합하는 시스템이 필요합니다.
Limitations of Sequence Labeling
- NLP에서 Key Information Extraction 등에 많이 사용되는 sequence labeling은 token 수준의 텍스트 라벨링과 span에 대한 라벨링이 있어야만 학습을 시킬 수 있습니다.
- 또한, 추출된 entity 중에 어느것이 추출되고 얼마나 많이 추출될지는 때론 복잡한 rule-based 방식으로 후처리를 해주어야 하는 경우가 많습니다.
- 마지막으로, document classification, non-extractive question answering, abstractive summarization과 같은 task에서는 문서 내에 정답이 나타나지 않기 때문에 Sequence Labeling을 사용할 수 없다는 단점이 있습니다.
- 이러한 이유들로 Sequence Labeling 방식에는 한계가 있다고 볼 수 있습니다.
Resorting to Encoder-Decoder Models
- Encoder-Decoder Model은 앞에서 언급한 sequence labeling의 여러 문제들을 해결할 수 있습니다. (span을 예측하는 sequence labeling가 달리, span에 대한 라벨링이 필요 없으며 encoder-decoder model은 전처리나 후처리가 복잡하지 않고 abstractive task들을 수행할 수 있음)
- 또한, Encoder-Decoder Model은 하나의 framework(또는 model)로 다양한 task를 처리할 수 있다는 장점이 있어 general-purpose model을 구축할 수 있습니다.
위의 motivation들로 인해 저자들은 Multi-modal을 처리할 수 있고 Spatial 정보를 잘 활용하며 Encoder-decoder 구조를 사용하는 Transformer 기반의 모델인 TILT(Text-Image-Layout Transformer)를 제안하였습니다.

Contributions
- Key Information Extraction, Question Answering, Document Classification 등의 task에서 복잡한 전처리 및 후처리가 없이 End-to-End로 학습시킬 수 있는 방법론 제안 및 SOTA 성능 달성
- 풍부한 공간 및 시각 정보를 Transformer에서 사용할 수 있는 방법론을 제안하여 text, layout, image 정보를 전부 활용할 수 있게 함
Proposed Method
Model Architecture
TILT 모델의 구조를 설명하기 전에 기본 Transformer(Vanilla Transformer)의 self-attention에 대해 되짚어볼 필요가 있습니다.
Transformer의 Self-attention은 다음과 같은 수식을 갖습니다. 아래에서 $X$는 $n$개의 inpu tokens에 대한 embedding matrix이고 $Q$, $K$, $V$는 $X$에 대한 query, key, value입니다. $B$는 attention bias로 기본 Transformer의 경우엔 해당 값이 영벡터가 됩니다. 두번째 수식에서 $S$는 token embedding, $P$는 position embedding을 의미하고 이들의 합이 최종적인 임베딩 벡터인 $X$가 됩니다.s
