본 논문은 D-JEPA·T2I라는 새로운 오토리그레시브 모델을 제시합니다. D-JEPA·T2I는 연속 토큰 기반으로 설계되어 4K까지의 임의 해상도에서 고품질의 사실적인 이미지를 생성합니다. 이는 잡음 제거 공동 임베딩 예측 아키텍처(D-JEPA)와 다중 모드 비주얼 트랜스포머를 활용하여 텍스트와 시각적 특징을 효과적으로 통합합니다. 또한, 연속 해상도 학습을 가능하게 하는 흐름 일치 손실과 시각적 회전 위치 임베딩(VoPE)을 도입했습니다. 훈련 전략 측면에서는 통계 분석과 온라인 학습 비평가 모델을 기반으로 샘플링 절차를 동적으로 조정하는 데이터 피드백 메커니즘을 제안하여, 모델이 잘 학습된 상황을 넘어 더 어려운 케이스에 집중하도록 유도합니다. 결과적으로, 본 논문은 최초로 다음 토큰 예측을 통해 최첨단 고해상도 이미지 합성을 달성했습니다.