Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Generative Pre-trained Autoregressive Diffusion Transformer

Created by
  • Haebom

저자

Yuan Zhang, Jiacheng Jiang, Guoqing Ma, Zhiying Lu, Haoyang Huang, Jianlong Yuan, Nan Duan, Daxin Jiang

GPDiT: Generative Pre-trained Autoregressive Diffusion Transformer

개요

본 연구에서는 긴 시퀀스 비디오 합성을 위해 확산 모델과 자기회귀 모델의 강점을 결합한 GPDiT(Generative Pre-trained Autoregressive Diffusion Transformer)를 연속적인 잠재 공간 내에서 제시합니다. GPDiT는 이산 토큰을 예측하는 대신 확산 손실을 사용하여 미래 잠재 프레임을 자기회귀적으로 예측하여 프레임 간의 자연스러운 움직임 역학과 의미론적 일관성을 모델링합니다. 이 연속적인 자기회귀 프레임워크는 생성 품질을 향상시킬 뿐만 아니라 모델에 표현 능력을 부여합니다. 또한, 경량 인과적 어텐션 변형과 매개변수 없는 회전 기반 시간 조건화 메커니즘을 도입하여 학습 및 추론 효율성을 향상시킵니다. 광범위한 실험을 통해 GPDiT는 비디오 생성 품질, 비디오 표현 능력 및 소수 샷 학습 작업에서 뛰어난 성능을 달성하여 연속 공간에서 비디오 모델링을 위한 효과적인 프레임워크로서의 잠재력을 강조합니다.

시사점, 한계점

확산 모델과 자기회귀 모델의 결합을 통해 긴 시퀀스 비디오 합성에 효과적인 프레임워크 제시.
연속적인 잠재 공간에서 프레임 간의 자연스러운 움직임과 의미론적 일관성 모델링 가능.
GPDiT는 비디오 생성 품질, 비디오 표현 능력, 소수 샷 학습 작업에서 뛰어난 성능을 보임.
경량 인과적 어텐션 변형 및 매개변수 없는 회전 기반 시간 조건화 메커니즘 도입으로 학습 및 추론 효율성 향상.
본 논문에서는 한계점에 대한 직접적인 언급은 없음.
👍