OTSNet은 현실 세계의 복잡성으로 인해 어려운 Scene Text Recognition (STR) 문제를 해결하기 위해 제안된 새로운 3단계 네트워크입니다. 기존 프레임워크에서 발생하는 시각-언어적 최적화의 분리 문제와, 배경 방해 요인에 대한 시각 인코더의 주의 편향, 기하학적으로 변형된 텍스트의 공간적 정렬 불일치를 해결하고자 합니다. 인간의 인지 과정을 모방하여, 관찰-사고-철자 파이프라인을 구축했습니다. OTSNet은 Dual Attention Macaron Encoder (DAME)를 통해 시각적 특징을 개선하고, Position-Aware Module (PAM)과 Semantic Quantizer (SQ)를 통해 공간적 컨텍스트와 문자 수준 의미 추상화를 통합하며, Multi-Modal Collaborative Verifier (MMCV)를 통해 시각, 의미, 문자 수준 특징을 융합하여 자체 교정을 수행합니다. Union14M-L 벤치마크에서 83.5%, OST 데이터셋에서 79.1%의 정확도를 달성하여, 14개 평가 시나리오 중 9개에서 새로운 기록을 세웠습니다.