본 논문은 시각 데이터를 이해하기 위한 표현 학습과 생성 모델링을 통합하는 새로운 통합 자기 지도 학습(SSL) 프레임워크인 Sorcen을 제안합니다. 기존 통합 SSL 방법들이 외부 토크나이저에 의존하는 반면, Sorcen은 'Echo Contrast'라는 새로운 대조적-재구성 목적 함수를 도입하여 추가적인 이미지 자르기나 증강 없이도 생성 능력을 활용합니다. 이는 의미 토큰 공간에서 '에코 샘플'을 생성하여 대조적인 양성 쌍을 형성하는 방식입니다. Sorcen은 미리 계산된 토큰만을 사용하여 온라인 토큰 변환이 필요 없으므로 계산 오버헤드를 크게 줄입니다. ImageNet-1k 실험 결과, Sorcen은 기존 최고 성능의 통합 SSL 모델을 여러 지표(선형 프로빙, 무조건 이미지 생성, 몇 샷 학습, 전이 학습)에서 능가하며, 계산 효율 또한 60.8% 향상됨을 보여줍니다.