Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DNTextSpotter: Arbitrary-Shaped Scene Text Spotting via Improved Denoising Training

Created by
  • Haebom

저자

Yu Xie, Qian Qiao, Jun Gao, Tianxiang Wu, Jiaqing Fan, Yue Zhang, Jielei Zhang, Huyang Sun

개요

본 논문은 Transformer 기반의 end-to-end text spotting 방법에서 발생하는 bipartite graph matching의 불안정성 문제를 해결하기 위해 새로운 denoising training 방법인 DNTextSpotter를 제안합니다. DNTextSpotter는 denoising 부분의 queries를 noised positional queries와 noised content queries로 분해하여, Bezier 곡선의 제어점을 이용해 positional queries를 생성하고, masked character sliding 방법을 통해 content queries를 초기화합니다. 또한, 배경 문자 분류를 위한 추가 손실 함수를 사용하여 배경 인식 능력을 향상시킵니다. 결과적으로, DNTextSpotter는 Total-Text, SCUT-CTW1500, ICDAR15, Inverse-Text 데이터셋에서 최첨단 성능을 달성하였으며, 특히 Inverse-Text 데이터셋에서 기존 최고 성능 대비 11.3% 향상을 보였습니다.

시사점, 한계점

시사점:
Bipartite graph matching의 불안정성 문제를 효과적으로 해결하는 새로운 denoising training 방법 제시.
불규칙적인 형태의 텍스트 spotting에서 우수한 성능 달성.
Inverse-Text 데이터셋과 같은 어려운 데이터셋에서도 상당한 성능 향상.
Bezier 곡선과 masked character sliding 기법을 활용한 창의적인 noisy query 생성 방법 제시.
한계점:
제안된 방법의 효과성이 특정 데이터셋에 국한될 가능성 존재.
다른 종류의 end-to-end text spotting 모델에 대한 일반화 가능성에 대한 추가 연구 필요.
추가 손실 함수의 디자인 및 하이퍼파라미터 튜닝에 대한 상세한 설명 부족 가능성.
👍