Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Playing with Transformer at 30+ FPS via Next-Frame Diffusion

Created by
  • Haebom

저자

Xinle Cheng, Tianyu He, Jiayi Xu, Junliang Guo, Di He, Jiang Bian

개요

본 논문은 상호작용적인 비디오 콘텐츠 생성과 임의 길이의 스트리밍 애플리케이션 지원에 있어서 양방향 확산 모델보다 자기회귀 비디오 모델이 갖는 장점을 제시합니다. 자기회귀 확산 트랜스포머인 Next-Frame Diffusion (NFD)을 제안하며, 블록 단위 인과적 어텐션을 통합하여 각 프레임 내에서 병렬 토큰 생성을 통한 반복적 샘플링 및 효율적인 추론을 가능하게 합니다. 실시간 비디오 생성의 어려움을 해결하기 위해, (1) 비디오 모델에 특화된 일관성 증류를 확장하여 적은 샘플링 단계로 효율적인 추론을 가능하게 하고, (2) 인접 프레임이 동일한 액션 입력을 공유하는 경우가 많다는 점에 착안하여 예측적 샘플링을 제안합니다. 대규모 액션 조건부 비디오 생성 벤치마크 실험 결과, NFD는 시각적 품질과 샘플링 효율 모두에서 자기회귀 기준 모델을 능가하며, 3억 1천만 매개변수 모델을 사용하여 A100 GPU에서 초당 30프레임 이상의 자기회귀 비디오 생성을 최초로 달성했습니다.

시사점, 한계점

시사점:
자기회귀 비디오 모델을 이용한 실시간(30 FPS 이상) 비디오 생성 달성 (A100 GPU 사용, 3억 1천만 매개변수 모델).
비디오 영역에 특화된 일관성 증류를 통한 효율적인 추론.
예측적 샘플링을 통한 병렬 계산의 효율적 활용.
자기회귀 기반 비디오 생성 모델의 시각적 품질 및 샘플링 효율 향상.
한계점:
여전히 높은 계산 비용이 실시간 생성의 주요 과제로 남아있음 (고성능 GPU 필요).
제안된 방법의 다른 아키텍처나 더 큰 모델에 대한 일반화 가능성에 대한 추가 연구 필요.
사용된 벤치마크 데이터셋의 한계에 따른 일반화 성능의 제약 가능성.
👍