Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VideoMAR: Autoregressive Video Generatio with Continuous Tokens

Created by
  • Haebom

저자

Hu Yu, Biao Gong, Hangjie Yuan, DanDan Zheng, Weilong Chai, Jingdong Chen, Kecheng Zheng, Feng Zhao

개요

본 논문에서는 연속 토큰을 사용하는 간결하고 효율적인 디코더 전용 자기회귀 이미지-비디오 모델인 VideoMAR을 제안합니다. VideoMAR은 시간적 프레임 간 및 공간적 마스크 생성을 결합하여 비디오 생성에 대한 자기회귀 모델의 잠재력을 탐구합니다. 비디오 자기회귀 모델의 기본 원칙으로 시간적 인과 관계와 공간적 양방향성을 제시하고, 마스크와 비디오 생성 통합을 위해 다음 프레임 확산 손실을 제안합니다. 긴 시퀀스 자기회귀 모델링의 높은 비용과 어려움을 해결하기 위해 시간적 단기-장기 커리큘럼 학습과 공간적 점진적 해상도 학습을 제안하고, 추론 시 점진적 온도 전략을 사용하여 누적 오차를 완화합니다. 또한, VideoMAR은 언어 모델의 여러 고유한 기능을 비디오 생성으로 복제합니다. 시간적 KV 캐시 및 공간적 병렬 생성의 동시 사용으로 인해 본질적으로 높은 효율성을 가지며, 3D 회전 임베딩을 통해 공간 및 시간적 외삽 기능을 제공합니다. VBench-I2V 벤치마크에서 VideoMAR은 이전 최첨단 모델(Cosmos I2V)을 능가하면서 훨씬 적은 매개변수(9.3%), 훈련 데이터(0.5%) 및 GPU 리소스(0.2%)를 필요로 합니다.

시사점, 한계점

시사점:
연속 토큰 기반의 효율적인 디코더 전용 자기회귀 이미지-비디오 모델 VideoMAR 제안
시간적 인과 관계와 공간적 양방향성을 고려한 비디오 생성
시간적 단기-장기 커리큘럼 학습 및 공간적 점진적 해상도 학습을 통한 효율적인 학습
기존 최고 성능 모델 대비 낮은 자원 소모량으로 우수한 성능 달성
언어 모델의 장점을 비디오 생성에 적용
한계점:
논문에서 구체적인 한계점이 언급되지 않음. 향후 연구를 통해 추가적인 개선 여지가 있을 수 있음.
VBench-I2V 벤치마크 외 다른 벤치마크에 대한 성능 평가 부족.
특정 비디오 생성 작업에 대한 일반화 성능에 대한 추가적인 분석 필요.
👍