Datasets
기존 데이터셋 중 PubTabNet, FinTabNet, TableBank를 사용했습니다. 이 데이터셋들은 모두 형식이 조금씩 달랐기 때문에, 가장 규모가 큰 PubTabNet을 기준으로 통일하여 homogenized 데이터셋을 만드는 과정이 필요했습니다.
본 논문의 알고리즘은 셀의 bounding box가 필요한데, 어떤 데이터셋은 bounding box가 아예 없거나 empty cell에서 없었기 때문에 없는 것을 만드는 pre-processing을 수행했습니다.
위 분포에서 보는 것과 같이, PubTabNet과 FinTabNet은 크기가 작은 테이블에 매우 편향되어있고 테이블의 스타일의 다양성도 부족했습니다.
이에 따라 본 논문에서는 다음 네 가지를 컨트롤 할 수 있는 합성 데이터셋인 SynthTabNet을 제안합니다.
각각 150k 개의 샘플을 포함하는 총 4개의 합성 데이터셋을 준비했습니다. 합성에 사용하는 텍스트로 PubTabNet, FinTabNet 데이터셋에 자주 등장하는 텍스트와 생성된 텍스트를 모두 사용했습니다. 1~2 번째 데이터셋은 기존 데이터셋의 생김새를 모사하면서 더 복잡한 테이블을 표현했습니다. 3번째 데이터셋은 고대비 컬러를 사용하였고 마지막 데이터셋은 sparse content를 가지도록 했습니다.
The TableFormer Model
TableFormer는 이미지로부터 1) 테이블의 구조를 표현하는 토큰 시퀀스 2) 토큰 subset에 해당하는 bounding box를 예측합니다.
Transformer 구조 차용 - 2 encoder layers, 4 decoder layers (실험으로 찾은 듯)
레이어가 다른 Task의 모델에 비해 적을 수 있는 것은 테이블 이미지의 단순성 때문.
학습 동안 decoder는 encoder의 feature에 더하여 토큰화 된 HTML 태그 GT를 입력으로 받음.
End-to-end로 각 테이블 셀에 대한 HTML 태그와 bounding box를 동시에 예측
DETR과 유사. ‘<td>’, ‘<’ 의 hidden state가 object query 역할.
CNN backbone과 Transformer Decoder의 feature가 모두 Attention Network (아래 그림 참조)에 들어감
출력은 각 테이블 셀의 bounding box의 normalized 좌표
Empty cell인지 아닌지 분류
Loss Function
Multi-task learning
Structure Decoder
Structure token 분류 - CE loss
Cell BBox Decoder
l1 loss + iou loss
$l_{box} = λ_{iou}l_{iou} + λ_{l1}$
$l = λl_{s} + (1 − λ)l_{box}$
Metrics: TEDS