본 논문은 상호작용적인 비디오 콘텐츠 생성과 임의 길이의 스트리밍 애플리케이션 지원에 있어서 양방향 확산 모델보다 자기회귀 비디오 모델이 갖는 장점을 제시합니다. 자기회귀 확산 트랜스포머인 Next-Frame Diffusion (NFD)을 제안하며, 블록 단위 인과적 어텐션을 통합하여 각 프레임 내에서 병렬 토큰 생성을 통한 반복적 샘플링 및 효율적인 추론을 가능하게 합니다. 실시간 비디오 생성의 어려움을 해결하기 위해, (1) 비디오 모델에 특화된 일관성 증류를 확장하여 적은 샘플링 단계로 효율적인 추론을 가능하게 하고, (2) 인접 프레임이 동일한 액션 입력을 공유하는 경우가 많다는 점에 착안하여 예측적 샘플링을 제안합니다. 대규모 액션 조건부 비디오 생성 벤치마크 실험 결과, NFD는 시각적 품질과 샘플링 효율 모두에서 자기회귀 기준 모델을 능가하며, 3억 1천만 매개변수 모델을 사용하여 A100 GPU에서 초당 30프레임 이상의 자기회귀 비디오 생성을 최초로 달성했습니다.