Introduction
Motivation
Visual Document Understanding(VDU) 시스템을 구축하기 위한 기존의 방법론들은 Optical Character Recognition(OCR)을 통해 text를 추출하고 이를 Downstream task의 input으로 사용하는 구조를 갖고 있습니다.
하지만 이러한 기존 방법론들은 다음과 같은 문제점들을 갖습니다.
- OCR is expensive and is not always available. — OCR engine 자체만으로도 높은 cost 필요
- OCR errors negatively influence subsequent processes. — 특히, 한국어와 일본어와 같이 OCR이 상대적으로 어려운 경우, 이 문제는 더 심각해짐 (post-OCR 방법론이 개발되기도 했으나, 이 또한 결과적으로 시스템의 크기를 키우고 유지보수에 상당한 cost가 필요함)
Contributions

- Visual Document Understaning을 위해 OCR 없이 End-to-End로 학습시킬 수 있는 Transformer 구조를 제안한 첫번째 연구
- 제안된 모델의 Pre-training을 위해 synthetic document image generator를 발표
- 실제 제품을 서비스하는 측면에서 cost-effective와 같은 실질적인 성능 향상
Proposed Method
Document Understanding Transformer(Donut)
논문에서는 OCR이 없으며 End-to-End로 학습 가능한 모델인 Document Understanding Transformer(Donut)을 제안합니다.
Donut은 Endoer-Decoder를 갖는 기본 Transformer의 구조와 동일합니다.
구체적으로는 Visual Encoder와 Textual Decoder로 구성되고 document image를 입력으로 받아 sequence of tokens를 생성합니다. 생성된 sequence of tokens은 Rule-based Algorithm을 통해 structed output으로 변환됩니다.