Going Full-TILT Boogie on Document Understanding with Text-Image-Layout Transformer

Introduction

Motivation

저자들이 이 연구를 진행한 motivation은 다음과 같이 세 가지를 들 수 있습니다.

Importance of Spatio-Visual Relations

다음의 figure와 같이 text 정보만으로 문서의 내용을 완벽하게 파악하기란 어렵습니다.
따라서, 문서의 내용을 완벽하게 이해하기 위해서는 text 정보뿐만 아니라, 공간 정보(layout)와 이미지 정보가 모두 필요하고 이를 통합하는 시스템이 필요합니다.

Limitations of Sequence Labeling

NLP에서 Key Information Extraction 등에 많이 사용되는 sequence labeling은 token 수준의 텍스트 라벨링과 span에 대한 라벨링이 있어야만 학습을 시킬 수 있습니다.
또한, 추출된 entity 중에 어느것이 추출되고 얼마나 많이 추출될지는 때론 복잡한 rule-based 방식으로 후처리를 해주어야 하는 경우가 많습니다.
마지막으로, document classification, non-extractive question answering, abstractive summarization과 같은 task에서는 문서 내에 정답이 나타나지 않기 때문에 Sequence Labeling을 사용할 수 없다는 단점이 있습니다.
이러한 이유들로 Sequence Labeling 방식에는 한계가 있다고 볼 수 있습니다.

Resorting to Encoder-Decoder Models

Encoder-Decoder Model은 앞에서 언급한 sequence labeling의 여러 문제들을 해결할 수 있습니다. (span을 예측하는 sequence labeling가 달리, span에 대한 라벨링이 필요 없으며 encoder-decoder model은 전처리나 후처리가 복잡하지 않고 abstractive task들을 수행할 수 있음)
또한, Encoder-Decoder Model은 하나의 framework(또는 model)로 다양한 task를 처리할 수 있다는 장점이 있어 general-purpose model을 구축할 수 있습니다.

위의 motivation들로 인해 저자들은 Multi-modal을 처리할 수 있고 Spatial 정보를 잘 활용하며 Encoder-decoder 구조를 사용하는 Transformer 기반의 모델인 TILT(Text-Image-Layout Transformer)를 제안하였습니다.

Untitled

Contributions

Key Information Extraction, Question Answering, Document Classification 등의 task에서 복잡한 전처리 및 후처리가 없이 End-to-End로 학습시킬 수 있는 방법론 제안 및 SOTA 성능 달성
풍부한 공간 및 시각 정보를 Transformer에서 사용할 수 있는 방법론을 제안하여 text, layout, image 정보를 전부 활용할 수 있게 함

Proposed Method

Model Architecture

TILT 모델의 구조를 설명하기 전에 기본 Transformer(Vanilla Transformer)의 self-attention에 대해 되짚어볼 필요가 있습니다.

Transformer의 Self-attention은 다음과 같은 수식을 갖습니다. 아래에서 $X$는 $n$개의 inpu tokens에 대한 embedding matrix이고 $Q$, $K$, $V$는 $X$에 대한 query, key, value입니다. $B$는 attention bias로 기본 Transformer의 경우엔 해당 값이 영벡터가 됩니다. 두번째 수식에서 $S$는 token embedding, $P$는 position embedding을 의미하고 이들의 합이 최종적인 임베딩 벡터인 $X$가 됩니다.s

Untitled