Introduction

Motivation

Visual Document Understanding(VDU) 시스템을 구축하기 위한 기존의 방법론들은 Optical Character Recognition(OCR)을 통해 text를 추출하고 이를 Downstream task의 input으로 사용하는 구조를 갖고 있습니다.

하지만 이러한 기존 방법론들은 다음과 같은 문제점들을 갖습니다.

Contributions

Untitled

  1. Visual Document Understaning을 위해 OCR 없이 End-to-End로 학습시킬 수 있는 Transformer 구조를 제안한 첫번째 연구
  2. 제안된 모델의 Pre-training을 위해 synthetic document image generator를 발표
  3. 실제 제품을 서비스하는 측면에서 cost-effective와 같은 실질적인 성능 향상

Proposed Method

Document Understanding Transformer(Donut)

논문에서는 OCR이 없으며 End-to-End로 학습 가능한 모델인 Document Understanding Transformer(Donut)을 제안합니다.

Donut은 Endoer-Decoder를 갖는 기본 Transformer의 구조와 동일합니다.

구체적으로는 Visual EncoderTextual Decoder로 구성되고 document image를 입력으로 받아 sequence of tokens를 생성합니다. 생성된 sequence of tokens은 Rule-based Algorithm을 통해 structed output으로 변환됩니다.