본 논문은 시각 데이터 이해를 위한 표현 학습과 생성 모델링의 통합을 목표로 하는 새로운 통합 자기 지도 학습(SSL) 프레임워크인 Sorcen을 제안합니다. 기존의 통합 SSL 방법들은 외부 토크나이저에 의존하는 반면, Sorcen은 상호작용적인 대조-재구성 목적 함수를 도입하여 추가적인 이미지 자르기나 증강 없이도 학습이 가능합니다. Sorcen은 의미 토큰 공간에서 '에코 샘플'을 생성하여 대조적인 양성 쌍을 형성하며, 사전 계산된 토큰만을 사용하여 온라인 토큰 변환 과정을 제거함으로써 계산 비용을 크게 줄입니다. ImageNet-1k 실험 결과, Sorcen은 기존 최고 성능 모델보다 선형 프로빙, 무조건 이미지 생성, 몇 샷 학습, 전이 학습에서 각각 0.4%, 1.48 FID, 1.76%, 1.53% 향상된 성능을 보였으며, 60.8% 더 효율적임을 보였습니다. 또한, 단일 이미지 자르기 기반의 MIM 최고 성능 모델을 능가하는 선형 프로빙 성능과 무조건 이미지 생성에서 최고 성능을 달성했습니다.