구현체는 아직 업로드 되지 않았습니다.
기존
의 STR 방법은 주로 시각 인식(Visual Recognition; VR) 모델로 예측한 1차원 문자 시퀀스의 결합 분포(Joint Probability)
를 언어 모델을 사용
하여 최적화했습니다.
이는 문자 인스턴스 내부와 인스턴스 사이의 시각적 의미(Visual Semantics)의 2차원 공간 문맥을 무시
하여 시각 인식 모델이 임의 장면 텍스트를 잘 일반화하지 않습니다.
이러한 이슈를 처리하기 위해, 저자는 먼저 시각적 의미(Visual Semantics)
에 기초한 텍스트 추론(Textual Reasoning)을 수행합니다.
시각 인식 모델로 예측된 Character Segmentation Maps
이 주어지면, 각 인스턴스에 대해 하위 그래프(Subgraph)
를 구성하는데, 여기서 노드
는 그 안의 픽셀을 나타내고 간선(Edge)
은 공간적 유사성에 기초하여 노드 사이에 추가됩니다.
그 후 이 하위 그래프들은 Root 노드들에 의해 순차적으로 연결되고 완전한(Complete) 그래프
로 병합됩니다.
이 그래프에 기반하여, 본 논문은 Cross Entropy Loss로 지도(Supervising)하여, 문자 추론(Textual Reasoning)을 위한 그래프 컨볼루션 네트워크(GTR)를 고안합니다.
GTR은 Representative STR 모델에 쉽게 추가(Plugged In)될 수 있어 더 나은 문자 추론을 통해 해당 모델의 성능을 개선할 수 있습니다.
본 논문은 Segmentation 기반의 STR 베이스라인에 있는 언어 모델
에 GTR을 병렬화
하여 S-GTR이라는 모델을 구성합니다. 이 방식은 상호 학습
을 통해 시각적-언어적 상보성(Complementarity)를 효과적으로 활용할 수 있습니다.
2022년 1월, S-GTR
은 6개의 STR 벤치마크에서 SOTA 결과를 내고 있으며, 다중 언어 데이터셋에서 일반화가 잘 되어있습니다.
장면 텍스트 인식(STR)의 태스크가 현실 문제에 도입되기 어려운 이유는 인식 결과가 복잡한 배경
, 불규칙한 모양
, 다양한 질감
과 같은 다양한 요소들에 매우 영향을 받기 때문입니다.
기존 방법들은 주로 STR을 하나의 시각 인식 태스크
로 다루며 ,입력 이미지에 대해 캐릭터 레벨 인식을 수행합니다. 이 방법들은 각 캐릭터를 식별하는 것에 대해 합리적인 성능을 보이지만, 필수적인 전역 문자 표현(Vital Global Textual Representations)
을 무시하며 현실 세계 문제에서 강건한 인식 결과를 내기가 매우 어렵습니다.
전역 문자 모델링을 위해, 기존 연구들은 언어 모델
을 활용하여, 시각 인식 모델에 의해 예측된 문자 시퀀스의 결합 분포를 최적화했습니다. 이 전략은 언어 문맥적으로 잘못된 예측을 바로 잡을 수 있지만, 임의 텍스트(ex: asdfqwer)와 애매한 케이스에 일반화되기는 어렵습니다.