저자

Screenshot from 2022-01-11 13-46-05.png

구현체는 아직 업로드 되지 않았습니다.

초록

기존의 STR 방법은 주로 시각 인식(Visual Recognition; VR) 모델로 예측한 1차원 문자 시퀀스의 결합 분포(Joint Probability)를 언어 모델을 사용하여 최적화했습니다. 이는 문자 인스턴스 내부와 인스턴스 사이의 시각적 의미(Visual Semantics)의 2차원 공간 문맥을 무시하여 시각 인식 모델이 임의 장면 텍스트를 잘 일반화하지 않습니다.

이러한 이슈를 처리하기 위해, 저자는 먼저 시각적 의미(Visual Semantics)에 기초한 텍스트 추론(Textual Reasoning)을 수행합니다.

Screenshot from 2022-01-11 18-25-44.png

시각 인식 모델로 예측된 Character Segmentation Maps이 주어지면, 각 인스턴스에 대해 하위 그래프(Subgraph)를 구성하는데, 여기서 노드는 그 안의 픽셀을 나타내고 간선(Edge)은 공간적 유사성에 기초하여 노드 사이에 추가됩니다.

그 후 이 하위 그래프들은 Root 노드들에 의해 순차적으로 연결되고 완전한(Complete) 그래프로 병합됩니다.

이 그래프에 기반하여, 본 논문은 Cross Entropy Loss로 지도(Supervising)하여, 문자 추론(Textual Reasoning)을 위한 그래프 컨볼루션 네트워크(GTR)를 고안합니다.

GTR은 Representative STR 모델에 쉽게 추가(Plugged In)될 수 있어 더 나은 문자 추론을 통해 해당 모델의 성능을 개선할 수 있습니다.

Screenshot from 2022-01-11 11-28-08.png

본 논문은 Segmentation 기반의 STR 베이스라인에 있는 언어 모델에 GTR을 병렬화하여 S-GTR이라는 모델을 구성합니다. 이 방식은 상호 학습을 통해 시각적-언어적 상보성(Complementarity)를 효과적으로 활용할 수 있습니다.

Screenshot from 2022-01-11 11-30-38.png

2022년 1월, S-GTR은 6개의 STR 벤치마크에서 SOTA 결과를 내고 있으며, 다중 언어 데이터셋에서 일반화가 잘 되어있습니다.

도입

장면 텍스트 인식(STR)의 태스크가 현실 문제에 도입되기 어려운 이유는 인식 결과가 복잡한 배경, 불규칙한 모양, 다양한 질감과 같은 다양한 요소들에 매우 영향을 받기 때문입니다.

기존 방법들은 주로 STR을 하나의 시각 인식 태스크로 다루며 ,입력 이미지에 대해 캐릭터 레벨 인식을 수행합니다. 이 방법들은 각 캐릭터를 식별하는 것에 대해 합리적인 성능을 보이지만, 필수적인 전역 문자 표현(Vital Global Textual Representations)을 무시하며 현실 세계 문제에서 강건한 인식 결과를 내기가 매우 어렵습니다.

전역 문자 모델링을 위해, 기존 연구들은 언어 모델을 활용하여, 시각 인식 모델에 의해 예측된 문자 시퀀스의 결합 분포를 최적화했습니다. 이 전략은 언어 문맥적으로 잘못된 예측을 바로 잡을 수 있지만, 임의 텍스트(ex: asdfqwer)와 애매한 케이스에 일반화되기는 어렵습니다.

Screenshot from 2022-01-11 11-28-08.png