Introduction

Motivation

대부분의 OCR 기반의 Key Information Extraction(KIE) 방법론들은 textual features와 position features만 사용하고 있습니다. 하지만 풍부한 semantic representation을 얻기 위해서는 visual feature와 global layout까지 사용하는 것이 좋을 수 있습니다.

KIE Approaches

기존 KIE 방법론과 이 논문에서 제안하는 방법론은 다음의 그림 한장으로 설명할 수 있습니다.

Untitled

Contributions

  1. 복잡한 layout을 가지는 문서들에서 Key Information Extraction task를 수행하기 위한 새로운 방법론 제안.
  2. 사전에 그래프 구조를 정의하는 것 없이 graph learning module을 모델에 도입함으로써 복잡한 documents에 대한 graph structure(=graph representation)를 정제할 수 있는 방법론 제안.

Proposed Method

논문에서 제안하는 방법론인 PICK(Processing Key Information Extraction from Documents using Improved Graph Learning-Convolutional Networks)은 아래의 그림과 같이 Encoder, Graph Module, Decoder의 3가지 module로 나눌 수 있습니다.

Untitled