Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Learning Plug-and-play Memory for Guiding Video Diffusion Models

Created by
  • Haebom
Category
Empty

저자

Selena Song, Ziming Xu, Zijun Zhang, Kun Zhou, Jiaxian Guo, Lianhui Qin, Biwei Huang

개요

Diffusion Transformer(DiT) 기반의 비디오 생성 모델은 시각적 품질과 시간적 일관성을 향상시켰지만, 물리 법칙과 상식적인 역학 관계를 위반하는 경우가 많았습니다. 본 연구에서는 이러한 모델에 유용한 세계 지식을 주입하기 위한 플러그 앤 플레이 방식의 메모리를 도입합니다. Transformer 기반 LLM의 In-context memory에서 영감을 받아, DiT의 숨겨진 상태에 대한 개입을 통해 모델을 제어할 수 있으며, 임베딩 공간에서 단순한 저역 및 고역 통과 필터를 사용하여 낮은 수준의 외관과 높은 수준의 물리적/의미적 단서를 자연스럽게 분리하여 목표 지침을 제공할 수 있음을 실험적으로 입증했습니다. 이러한 관찰을 바탕으로, 3D CNN, 저/고역 통과 필터, 셀프 어텐션 레이어로 구성된 학습 가능한 메모리 인코더 DiT-Mem을 제안합니다. 이 인코더는 참조 비디오를 압축된 메모리 토큰 집합으로 매핑하여 DiT 셀프 어텐션 레이어 내에서 메모리로 연결됩니다. 학습 과정에서 확산 백본은 고정하고 메모리 인코더만 최적화합니다. 이는 적은 수의 매개변수(150M)와 10K 데이터 샘플로 효율적인 학습을 가능하게 하며, 추론 시 플러그 앤 플레이 방식으로 사용할 수 있습니다. 최첨단 모델에 대한 광범위한 실험을 통해 물리 법칙 준수와 비디오 충실도를 개선하는 데 있어 제안된 방법의 효과를 입증했습니다.

시사점, 한계점

시사점:
DiT 기반 비디오 생성 모델의 물리적 법칙 위반 문제 해결
플러그 앤 플레이 방식의 메모리 도입으로 유용한 세계 지식 주입
효율적인 학습 과정: 적은 파라미터와 데이터로 학습 가능
물리 법칙 준수 및 비디오 충실도 향상
한계점:
논문에 명시된 한계점은 없음 (Abstract 기준)
👍