Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Learning Plug-and-play Memory for Guiding Video Diffusion Models

Created by
  • Haebom
Category
Empty

저자

Selena Song, Ziming Xu, Zijun Zhang, Kun Zhou, Jiaxian Guo, Lianhui Qin, Biwei Huang

개요

Diffusion Transformer (DiT) 기반의 비디오 생성 모델은 시각적 품질과 시간적 일관성을 개선했지만, 물리 법칙 및 일반 상식적인 역학을 위반하는 경우가 많아 명시적인 세계 지식의 부족을 드러낸다. 본 연구에서는 DiT 모델에 유용한 세계 지식을 주입하는 플러그 앤 플레이 메모리를 장착하는 방법을 탐구한다. Transformer 기반 LLM의 in-context memory를 기반으로 DiT의 은닉 상태를 조작할 수 있으며, 임베딩 공간의 단순한 저역 통과 및 고역 통과 필터가 저수준 외관과 고수준 물리/의미적 단서를 자연스럽게 분리하여 목표 지침을 가능하게 함을 실험적으로 확인했다. 이러한 관찰을 바탕으로, 3D CNN, 저/고역 통과 필터 및 self-attention 레이어로 구성된 학습 가능한 메모리 인코더 DiT-Mem을 제안한다. 이 인코더는 참조 비디오를 압축된 메모리 토큰 집합으로 매핑하며, 이는 DiT self-attention 레이어 내에서 메모리로 연결된다. 훈련 중에는 확산 백본을 고정하고 메모리 인코더만 최적화한다. 이는 소수의 훈련 매개변수와 적은 수의 데이터 샘플(10,000개)로 효율적인 훈련 프로세스를 제공하며, 추론 시 플러그 앤 플레이 사용을 가능하게 한다. 최첨단 모델에 대한 광범위한 실험을 통해 물리 법칙 준수 및 비디오 충실도를 향상시키는 효과를 입증했다.

시사점, 한계점

DiT 모델의 세계 지식 부족 문제를 해결하기 위해 플러그 앤 플레이 메모리 시스템을 제안함.
학습 가능한 메모리 인코더 DiT-Mem을 통해 기존 DiT 모델의 성능을 향상시킴.
모델 훈련 시 적은 수의 매개변수와 데이터 샘플을 사용해 효율성을 높임.
물리 법칙 준수 및 비디오 충실도 측면에서 성능 향상을 보임.
모델의 한계점은 명시적으로 언급되지 않음.
👍