Paper
TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document
TextMonkey demo
2024.03.07 자 논문
Introduction
Motivation
- 기존의 LMM (Large Multimodal Models) 분야의 vision encoder는 낮은 해상도 (224~336)의 이미지만으로 학습된 CLIP에 의존하여 많은 텍스트를 가진 document task 에 잘 맞지 않음 (a)
- 이를 해결하기 위해 이미지를 여러 patch로 나눠 연산하는 crop-based method가 제시되었는데, 이는 작은 단어들을 분할할 가능성이 있기 때문에 patch들을 합한 후에 의미가 달라질 경우가 발생함 (b)
- Frequency-based method는 frequency를 활용하기 때문에 높은 해상도의 이미지를 처리할 수 있지만, pre-trained된 vision encoder를 사용하기 어렵다는 단점이 있음 (c)
Contribution
- 고해상도 문서 이미지 처리: TextMonkey는 Shifted Window Attention과 Zero-Initialization을 도입하여 높은 입력 해상도에서의 cross-window 연결성을 달성하고 초기 훈련을 안정화시킵니다. 이를 통해 고해상도 문서 이미지를 효율적으로 처리할 수 있습니다.
- 토큰 길이 최적화: Token Resampler를 사용하여 이미지 내의 중복 토큰을 필터링하고 토큰 길이를 줄입니다. 이는 모델의 성능을 향상시키고 계산 비용을 줄이는 데 기여합니다.
- 텍스트 스팟팅 및 그라운딩: TextMonkey는 텍스트 스팟팅과 그라운딩을 포함한 다양한 기능을 지원합니다. 위치 정보를 응답에 포함시켜 모델의 해석 가능성을 높이고 환각을 최소화합니다.
- Prompt 방식으로 여러 subtask 수행 가능
- 추가적으로 표 추출이 가능하고 대부분의 벤치마크에서 높은 성능 달성