Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Accurate Scene Text Recognition with Efficient Model Scaling and Cloze Self-Distillation

Created by
  • Haebom
Category
Empty

저자

Andrea Maracani, Savas Ozkan, Sijun Cho, Hyowon Kim, Eunchung Noh, Jeongwon Min, Cho Jung Min, Dookun Park, Mete Ozay

개요

본 논문은 장면 텍스트 인식(STR)에서 확장 가능한 아키텍처의 효과를 분석하고, 특히 비전 인코더와 텍스트 디코더의 확장에 따른 성능 향상을 심층적으로 연구합니다. 기존 연구와 달리, 디코더 확장이 인코더 확장보다 훨씬 큰 성능 향상을 가져온다는 것을 실험적으로 증명합니다. 또한, 실제 데이터에서 라벨 노이즈가 STR 모델의 성능을 저해하는 주요 요인임을 밝히고, 이를 해결하기 위해 교사 모델의 문맥 인식 소프트 예측과 의사 라벨을 활용한 Cloze Self-Distillation (CSD) 기법을 제안합니다. 더불어, STR을 위한 차별적 교차 어텐션(differential cross-attention)을 도입하여 디코더 아키텍처를 개선합니다. 제안된 방법론은 실제 데이터만을 사용하여 11개 벤치마크 중 10개에서 최첨단 성능을 달성하며, 동시에 매개변수 크기와 계산 비용을 크게 줄입니다.

시사점, 한계점

시사점:
디코더 확장이 인코더 확장보다 STR 성능 향상에 더 효과적임을 실험적으로 입증.
실제 데이터의 라벨 노이즈 문제를 해결하기 위한 효과적인 CSD 기법 제안.
차별적 교차 어텐션을 활용한 디코더 아키텍처 개선으로 성능 향상 및 효율성 증대.
실제 데이터만 사용하여 10개 이상의 벤치마크에서 최첨단 성능 달성.
한계점:
제안된 방법론이 모든 STR 문제에 대해 항상 최고의 성능을 보장한다는 것을 일반화하기 어려움.
11개 벤치마크 중 하나에서는 최첨단 성능을 달성하지 못함. 구체적인 원인 분석이 필요.
CSD 기법의 효과는 사용하는 데이터셋과 모델 아키텍처에 따라 달라질 수 있음.
더 다양한 실제 데이터셋을 이용한 추가적인 실험이 필요할 수 있음.
👍