Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Context-Driven Training-Free Network for Lightweight Scene Text Segmentation and Recognition

Created by
  • Haebom
Category
Empty

저자

Ritabrata Chakraborty, Shivakumara Palaiahnakote, Umapada Pal, Cheng-Lin Liu

개요

본 논문은 실시간 시나리오에 적합하지 않은 대규모 end-to-end 시스템의 한계를 극복하기 위해, 사전 훈련된 텍스트 인식기를 활용하는 새로운 training-free plug-and-play 프레임워크를 제안합니다. 컨텍스트 기반 이해와 어텐션 기반 분할 단계를 도입하여 후처리 인식 성능을 향상시키고, 후보 텍스트 영역을 픽셀 단위로 개선합니다. 기존의 블록 단위 특징맵 비교 방식 대신, 사전 훈련된 캡셔닝 모델을 이용하여 장면 컨텍스트에서 직접 단어 예측을 생성합니다. 후보 텍스트는 의미론적 및 어휘적으로 평가되어 최종 점수를 얻고, 미리 정의된 신뢰도 임계값을 충족하거나 초과하는 예측은 end-to-end 텍스트 STR 프로파일링 과정을 생략하여 추론 속도를 높이고 불필요한 계산을 줄입니다. 공개 벤치마크 실험 결과, 최첨단 시스템과 유사한 성능을 달성하면서 훨씬 적은 리소스를 필요로 함을 보여줍니다.

시사점, 한계점

시사점:
실시간 시나리오에 적합한 경량화된 시각적 텍스트 인식 프레임워크 제시
사전 훈련된 모델을 활용하여 training 비용 절감
컨텍스트 기반 이해 및 어텐션 기반 분할을 통해 성능 향상
신뢰도 기반 필터링으로 추론 속도 향상 및 계산량 감소
최첨단 시스템과 비슷한 성능 달성
한계점:
제안된 프레임워크의 일반화 성능에 대한 추가적인 평가 필요
다양한 텍스트 형태 및 복잡한 배경에 대한 로버스트성 평가 필요
신뢰도 임계값 설정에 대한 최적화 연구 필요
사전 훈련된 모델의 성능에 의존적인 특성으로 인한 제약 존재 가능성
👍