Intro

Untitled

Untitled

Previous Works

Method

  1. Datasets

    1. 기존 데이터셋 중 PubTabNet, FinTabNet, TableBank를 사용했습니다. 이 데이터셋들은 모두 형식이 조금씩 달랐기 때문에, 가장 규모가 큰 PubTabNet을 기준으로 통일하여 homogenized 데이터셋을 만드는 과정이 필요했습니다.

      Untitled

      본 논문의 알고리즘은 셀의 bounding box가 필요한데, 어떤 데이터셋은 bounding box가 아예 없거나 empty cell에서 없었기 때문에 없는 것을 만드는 pre-processing을 수행했습니다.

      Untitled

      위 분포에서 보는 것과 같이, PubTabNet과 FinTabNet은 크기가 작은 테이블에 매우 편향되어있고 테이블의 스타일의 다양성도 부족했습니다.

    2. 이에 따라 본 논문에서는 다음 네 가지를 컨트롤 할 수 있는 합성 데이터셋인 SynthTabNet을 제안합니다.

      1. 데이터셋의 크기
      2. 테이블 구조
      3. 테이블 스타일
      4. 컨텐츠의 종류

      각각 150k 개의 샘플을 포함하는 총 4개의 합성 데이터셋을 준비했습니다. 합성에 사용하는 텍스트로 PubTabNet, FinTabNet 데이터셋에 자주 등장하는 텍스트와 생성된 텍스트를 모두 사용했습니다. 1~2 번째 데이터셋은 기존 데이터셋의 생김새를 모사하면서 더 복잡한 테이블을 표현했습니다. 3번째 데이터셋은 고대비 컬러를 사용하였고 마지막 데이터셋은 sparse content를 가지도록 했습니다.

  2. The TableFormer Model

    TableFormer는 이미지로부터 1) 테이블의 구조를 표현하는 토큰 시퀀스 2) 토큰 subset에 해당하는 bounding box를 예측합니다.

    Untitled

    Untitled

Experiment

Untitled

Untitled