Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Playing with Transformer at 30+ FPS via Next-Frame Diffusion

Created by
  • Haebom

저자

Xinle Cheng, Tianyu He, Jiayi Xu, Junliang Guo, Di He, Jiang Bian

개요

본 논문은 상호작용적인 비디오 콘텐츠 생성과 임의 길이의 스트리밍 애플리케이션 지원에 있어서 양방향 확산 모델보다 자기회귀 비디오 모델이 갖는 장점에 초점을 맞추고 있습니다. 자기회귀 확산 트랜스포머인 Next-Frame Diffusion (NFD)를 제시하며, 블록 단위 인과적 어텐션을 통합하여 반복적 샘플링 및 각 프레임 내 병렬 토큰 생성을 통한 효율적인 추론을 가능하게 합니다. 실시간 비디오 생성의 어려움을 해결하기 위해, 비디오 모델에 특화된 일관성 증류를 확장하여 적은 샘플링 단계로 효율적인 추론을 가능하게 하는 방법과, 인접 프레임이 동일한 액션 입력을 공유하는 경우가 많다는 점에 착안하여 예측적 샘플링을 제안합니다. 대규모 액션 조건부 비디오 생성 벤치마크 실험을 통해 NFD가 시각적 품질과 샘플링 효율 측면에서 자기회귀 기준 모델들을 능가함을 보여주며, 3억 1천만 매개변수 모델을 사용하여 A100 GPU에서 초당 30프레임 이상의 자기회귀 비디오 생성을 최초로 달성했습니다.

시사점, 한계점

시사점:
자기회귀 비디오 모델을 이용한 실시간 비디오 생성의 가능성을 제시 (30 FPS 이상 달성).
일관성 증류와 예측적 샘플링 기법을 통해 자기회귀 모델의 샘플링 효율을 크게 향상.
블록 단위 인과적 어텐션을 활용하여 효율적인 추론 수행.
액션 조건부 비디오 생성에서 기존 자기회귀 기준 모델들을 능가하는 성능을 보임.
한계점:
실시간 비디오 생성을 위한 높은 계산 비용 문제는 여전히 존재하며, 더욱 경량화된 모델 개발이 필요할 수 있음.
예측적 샘플링의 효율성은 액션 입력의 연속성에 의존하며, 액션 변화가 빈번한 경우 성능 저하 가능성 존재.
제시된 방법론의 일반화 성능 및 다른 비디오 데이터셋에 대한 성능 평가가 추가적으로 필요.
A100 GPU를 사용한 결과이므로, 다른 하드웨어 환경에서의 성능은 달라질 수 있음.
👍