Untitled

요약

DLA(Document Layout Analysis) : 문서 내에서 독립적인 의미 있는 내용들을 감지하고 이러한 항목들을 적절한 범주(text, title, table, figure 등)로 분류하는 작업
PDF로 구성된 문서에 적용하는 기존 DLA task의 경우 문서를 이미지로만 인식하여 처리했지만, 본 논문에서는 PDF parser 등으로 얻을 수 있는 여러 metadata(text, font, color 등)를 활용하여 PDF 문서를 graph 형태로 표현하고, DLA task를 graph classification 및 segmentation으로 구성하여 처리하는 방식을 소개
GLAM(Graph-based Layout Analysis Model)
400만개의 parameter를 갖는 GLAM이 DocLayNet dataset의 11개의 class 중에서 5개의 class의 성능이 기존 1억 4천만개의 parameter를 갖는 CV 모델의 성능을 능가함

Introduction

Untitled

제안하는 방식
- PDF parser를 통해 각 텍스트들의 bbox, font, color 등의 metadata를 가져옴
- CV model들을 이용하여 visual적으로 나누어진 여러 항목들(paragraph, figure, table 등)을 분류
기존 DLA 모델의 경우, 실제 GT와 얼마나 bbox가 일치하는지에 대한 mAP만을 metric으로 사용하여 각 검출 항목들이 실제로 어떤 의미적인 관계들을 가지는지에 대한 측정은 하지 않음
해결 방법으로 layout을 graph의 형태로 표현하여 궁극적으로는 node classification 문제와 graph segmentation problem 문제로 취급하여 해결하는 동시에 기존 모델들의 측정 방식인 mAP 또한 향상시키고 경량화 및 속도의 이점 또한 챙기도록 함

Document Layout Analysis
- information retrieval
- table extraction
- key-value extraction
Object Detection-Based Methods in VRDU
- VRDU : Visually Rich Document Understanding
- OCR + LayoutLM, Multimodal, Donut
Graph Neural Networks in Document Understanding
- table understanding