요약
- DLA(Document Layout Analysis) : 문서 내에서 독립적인 의미 있는 내용들을 감지하고 이러한 항목들을 적절한 범주(text, title, table, figure 등)로 분류하는 작업
- PDF로 구성된 문서에 적용하는 기존 DLA task의 경우 문서를 이미지로만 인식하여 처리했지만, 본 논문에서는 PDF parser 등으로 얻을 수 있는 여러 metadata(text, font, color 등)를 활용하여 PDF 문서를 graph 형태로 표현하고, DLA task를 graph classification 및 segmentation으로 구성하여 처리하는 방식을 소개
- GLAM(Graph-based Layout Analysis Model)
- 400만개의 parameter를 갖는 GLAM이 DocLayNet dataset의 11개의 class 중에서 5개의 class의 성능이 기존 1억 4천만개의 parameter를 갖는 CV 모델의 성능을 능가함
Introduction
- 제안하는 방식
- PDF parser를 통해 각 텍스트들의 bbox, font, color 등의 metadata를 가져옴
- CV model들을 이용하여 visual적으로 나누어진 여러 항목들(paragraph, figure, table 등)을 분류
- 기존 DLA 모델의 경우, 실제 GT와 얼마나 bbox가 일치하는지에 대한 mAP만을 metric으로 사용하여 각 검출 항목들이 실제로 어떤 의미적인 관계들을 가지는지에 대한 측정은 하지 않음
- 해결 방법으로 layout을 graph의 형태로 표현하여 궁극적으로는 node classification 문제와 graph segmentation problem 문제로 취급하여 해결하는 동시에 기존 모델들의 측정 방식인 mAP 또한 향상시키고 경량화 및 속도의 이점 또한 챙기도록 함
Related Work
- Document Layout Analysis
- information retrieval
- table extraction
- key-value extraction
- Object Detection-Based Methods in VRDU
- VRDU : Visually Rich Document Understanding
- OCR + LayoutLM, Multimodal, Donut
- Graph Neural Networks in Document Understanding
Methodology
-
Graph Generation
- PDF parser를 이용해 모든 text box를 추출
- bbox 위치, text 길이, 숫자 문자의 비율, font 유형, font 크기 및 기타 79가지 항목들을 포함
- 각 text box를 node로하여 그래프를 구성
- 각 node들을 연결하는 edge를 구성
- 양방향 edge : 각 node와 가장 이웃한 edge를 찾아 연결
- 추가적인 edge : 문서를 읽을 때 읽는 순서를 고려하여 추가적으로 node를 연결 (tblr 등)
- 각 edge에는 방향 및 거리 정보를 포함하는 고유한 벡터 표현이 포함되어 있음