본 논문에서는 연속 토큰을 사용하는 간결하고 효율적인 디코더 전용 자기회귀 이미지-비디오 모델인 VideoMAR을 제안합니다. VideoMAR은 시간적 프레임 간 및 공간적 마스크 생성을 결합하여 비디오 생성에 대한 자기회귀 모델의 잠재력을 탐구합니다. 비디오 자기회귀 모델의 기본 원칙으로 시간적 인과 관계와 공간적 양방향성을 제시하고, 마스크와 비디오 생성 통합을 위해 다음 프레임 확산 손실을 제안합니다. 긴 시퀀스 자기회귀 모델링의 높은 비용과 어려움을 해결하기 위해 시간적 단기-장기 커리큘럼 학습과 공간적 점진적 해상도 학습을 제안하고, 추론 시 점진적 온도 전략을 사용하여 누적 오차를 완화합니다. 또한, VideoMAR은 언어 모델의 여러 고유한 기능을 비디오 생성으로 복제합니다. 시간적 KV 캐시 및 공간적 병렬 생성의 동시 사용으로 인해 본질적으로 높은 효율성을 가지며, 3D 회전 임베딩을 통해 공간 및 시간적 외삽 기능을 제공합니다. VBench-I2V 벤치마크에서 VideoMAR은 이전 최첨단 모델(Cosmos I2V)을 능가하면서 훨씬 적은 매개변수(9.3%), 훈련 데이터(0.5%) 및 GPU 리소스(0.2%)를 필요로 합니다.