Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

OTSNet: A Neurocognitive-Inspired Observation-Thinking-Spelling Pipeline for Scene Text Recognition

Created by
  • Haebom
Category
Empty

저자

Lixu Sun, Nurmemet Yolwas, Wushour Silamu

개요

OTSNet은 현실 세계의 복잡성으로 인해 어려운 Scene Text Recognition (STR) 문제를 해결하기 위해 제안된 새로운 3단계 네트워크입니다. 기존 프레임워크에서 발생하는 시각-언어적 최적화의 분리 문제와, 배경 방해 요인에 대한 시각 인코더의 주의 편향, 기하학적으로 변형된 텍스트의 공간적 정렬 불일치를 해결하고자 합니다. 인간의 인지 과정을 모방하여, 관찰-사고-철자 파이프라인을 구축했습니다. OTSNet은 Dual Attention Macaron Encoder (DAME)를 통해 시각적 특징을 개선하고, Position-Aware Module (PAM)과 Semantic Quantizer (SQ)를 통해 공간적 컨텍스트와 문자 수준 의미 추상화를 통합하며, Multi-Modal Collaborative Verifier (MMCV)를 통해 시각, 의미, 문자 수준 특징을 융합하여 자체 교정을 수행합니다. Union14M-L 벤치마크에서 83.5%, OST 데이터셋에서 79.1%의 정확도를 달성하여, 14개 평가 시나리오 중 9개에서 새로운 기록을 세웠습니다.

시사점, 한계점

시사점:
신경인지적 접근 방식을 통해 STR 문제를 효과적으로 해결했습니다.
Dual Attention, Position-Aware Module, Semantic Quantizer, Multi-Modal Collaborative Verifier 등 혁신적인 모듈을 제시했습니다.
다양한 벤치마크에서 SOTA 성능을 달성하여 모델의 우수성을 입증했습니다.
한계점:
논문에서 구체적인 한계점 언급은 없음.
👍