본 논문은 실시간 시나리오에 적합하지 않은 대규모 end-to-end 시스템의 한계를 극복하기 위해, 사전 훈련된 텍스트 인식기를 활용하는 새로운 training-free plug-and-play 프레임워크를 제안합니다. 컨텍스트 기반 이해와 어텐션 기반 분할 단계를 도입하여 후처리 인식 성능을 향상시키고, 후보 텍스트 영역을 픽셀 단위로 개선합니다. 기존의 블록 단위 특징맵 비교 방식 대신, 사전 훈련된 캡셔닝 모델을 이용하여 장면 컨텍스트에서 직접 단어 예측을 생성합니다. 후보 텍스트는 의미론적 및 어휘적으로 평가되어 최종 점수를 얻고, 미리 정의된 신뢰도 임계값을 충족하거나 초과하는 예측은 end-to-end 텍스트 STR 프로파일링 과정을 생략하여 추론 속도를 높이고 불필요한 계산을 줄입니다. 공개 벤치마크 실험 결과, 최첨단 시스템과 유사한 성능을 달성하면서 훨씬 적은 리소스를 필요로 함을 보여줍니다.