Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Masked Self-Supervised Pre-Training for Text Recognition Transformers on Large-Scale Datasets

Created by
  • Haebom

저자

Martin Ki\v{s}\v{s}, Michal Hradi\v{s}

개요

본 논문은 대규모 비표제 텍스트 데이터를 활용한 자기 지도 학습 기반의 텍스트 인식 트랜스포머 사전 학습 방법을 제안합니다. 마스킹 확률을 점진적으로 증가시키고, 마스크된 패치와 마스크되지 않은 패치 모두를 고려하는 손실 함수를 사용하는 두 가지 수정 사항을 제시합니다. 5천만 개의 비표제 텍스트 라인을 사용하여 사전 학습을 진행하고, 크기가 다른 네 개의 주석이 달린 데이터셋으로 미세 조정을 수행하여 제안된 방법의 효과를 실험적으로 검증합니다. 전이 학습과 비교 결과, 자기 지도 사전 학습이 문자 오류율을 최대 30%까지 개선하며, 추가적인 주석 데이터 없이 전이 학습과 유사한 성능을 달성함을 보여줍니다.

시사점, 한계점

시사점:
대규모 비표제 데이터를 효과적으로 활용하여 텍스트 인식 모델의 성능을 향상시키는 새로운 자기 지도 학습 방법 제시.
마스킹 확률 조절 및 손실 함수 수정을 통해 성능 개선.
추가 주석 데이터 없이 전이 학습 수준의 성능 달성.
문자 오류율 최대 30% 감소 효과 확인.
한계점:
제안된 방법의 효과는 특정 데이터셋에 국한될 수 있음.
다른 유형의 텍스트 인식 모델이나 데이터셋에 대한 일반화 성능 검증 필요.
5천만 개의 비표제 데이터를 사용한 사전 학습에 대한 계산 비용 및 자원 소모에 대한 분석 부족.
👍