본 논문은 비전 트랜스포머(ViTs)의 매개변수 집약적 특성과 많은 데이터 의존성을 고려하여, 효과적인 성능을 위해 자가 지도 학습(SSL) 기법과의 통합을 중점적으로 다룹니다. 특히, 수동 라벨링이 필요 없고 확장성이 높은 SSL의 장점을 활용하여, 제한된 레이블 데이터 환경에서 ViTs의 성능 향상을 목표로 합니다. 논문에서는 ViTs를 위한 SSL 기법들을 포괄적으로 검토하고, 표현 방식과 사전 훈련 작업에 기반한 분류 체계를 제시하며, 주요 사전 훈련 작업들을 검토하고, 각 방법들의 강점과 한계, 적용 가능성을 비교 분석합니다.