Accurate Scene Text Recognition with Efficient Model Scaling and Cloze Self-Distillation
Created by
Haebom
Category
Empty
저자
Andrea Maracani, Savas Ozkan, Sijun Cho, Hyowon Kim, Eunchung Noh, Jeongwon Min, Cho Jung Min, Dookun Park, Mete Ozay
개요
본 논문은 장면 텍스트 인식(STR)에서 확장 가능한 아키텍처의 효과를 분석하고, 특히 비전 인코더와 텍스트 디코더의 확장에 따른 성능 향상을 심층적으로 연구합니다. 기존 연구와 달리, 디코더 확장이 인코더 확장보다 훨씬 큰 성능 향상을 가져온다는 것을 실험적으로 증명합니다. 또한, 실제 데이터에서 라벨 노이즈가 STR 모델의 성능을 저해하는 주요 요인임을 밝히고, 이를 해결하기 위해 교사 모델의 문맥 인식 소프트 예측과 의사 라벨을 활용한 Cloze Self-Distillation (CSD) 기법을 제안합니다. 더불어, STR을 위한 차별적 교차 어텐션(differential cross-attention)을 도입하여 디코더 아키텍처를 개선합니다. 제안된 방법론은 실제 데이터만을 사용하여 11개 벤치마크 중 10개에서 최첨단 성능을 달성하며, 동시에 매개변수 크기와 계산 비용을 크게 줄입니다.
시사점, 한계점
•
시사점:
◦
디코더 확장이 인코더 확장보다 STR 성능 향상에 더 효과적임을 실험적으로 입증.
◦
실제 데이터의 라벨 노이즈 문제를 해결하기 위한 효과적인 CSD 기법 제안.
◦
차별적 교차 어텐션을 활용한 디코더 아키텍처 개선으로 성능 향상 및 효율성 증대.
◦
실제 데이터만 사용하여 10개 이상의 벤치마크에서 최첨단 성능 달성.
•
한계점:
◦
제안된 방법론이 모든 STR 문제에 대해 항상 최고의 성능을 보장한다는 것을 일반화하기 어려움.