본 논문은 시각 데이터를 이해하기 위한 표현 학습과 생성 모델링을 통합하는 새로운 통합 자기 지도 학습(SSL) 프레임워크인 Sorcen을 제안합니다. 기존 통합 SSL 방법들은 외부 토크나이저에 의존하는 반면, Sorcen은 새로운 대조-재구성 목적 함수를 통해 추가적인 이미지 자르기나 증강 없이도 학습이 가능합니다. Sorcen은 의미 토큰 공간에서 "에코 샘플"을 생성하여 대조적인 양성 쌍을 형성하고, 미리 계산된 토큰만을 사용하여 온라인 토큰 변환의 필요성을 제거함으로써 계산 오버헤드를 크게 줄입니다. ImageNet-1k 실험 결과, Sorcen은 기존 최고 성능의 통합 SSL 모델보다 다양한 지표(선형 프로빙, 무조건 이미지 생성, 몇 샷 학습, 전이 학습)에서 성능 향상을 보였으며, 60.8% 더 효율적임을 보였습니다. 또한, 단일 크롭 MIM 최고 성능 모델을 능가하는 선형 프로빙 성능과 최고 성능의 무조건 이미지 생성 성능을 달성했습니다.