Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Separate Motion from Appearance: Customizing Motion via Customizing Text-to-Video Diffusion Models

Created by
  • Haebom

저자

Huijie Liu, Jingyun Wang, Shuai Ma, Jie Hu, Xiaoming Wei, Guoliang Kang

개요

본 논문은 확산 모델(DM)을 사용하여 동작 개념이 동일한 비디오 클립 집합으로 지정된 동작을 가진 비디오를 생성하는 동작 사용자 지정을 다룹니다. 기존 연구들은 대규모 사전 학습된 텍스트-비디오 확산 모델에 동작 개념을 표현하고 삽입하는 다양한 방법(예: 동작 LoRA 학습, 잠재 노이즈 잔차 사용 등)을 탐구했지만, 이러한 방법들은 참조 비디오의 외관을 불가피하게 인코딩하여 외관 생성 능력이 약화되는 문제가 있습니다. 본 논문에서는 동작 개념을 인코딩하기 위해 동작 LoRA를 학습하는 일반적인 방식을 따르지만, 시간적 주의 정제(TAP)와 외관 고속도로(AH)라는 두 가지 새로운 전략을 제안하여 동작-외관 분리를 향상시킵니다. TAP에서는 사전 학습된 Value 임베딩이 새로운 동작 생성에 필요한 기본 구성 요소로 충분하다고 가정하고, 시간적 주의를 동작 LoRA로만 재구성하여 Value 임베딩을 재구성하여 새로운 동작을 생성합니다. AH에서는 U-Net의 각 skip connection의 시작점을 각 시간적 주의 모듈의 출력에서 각 공간적 주의 모듈의 출력으로 변경합니다. 실험 결과, 제안된 방법은 기존 연구보다 텍스트 설명과 더 일치하는 외관과 참조 비디오와 더 일관된 동작을 가진 비디오를 생성할 수 있음을 보여줍니다.

시사점, 한계점

시사점: 시간적 주의 정제(TAP)와 외관 고속도로(AH) 전략을 통해 기존 방법보다 향상된 동작-외관 분리를 달성하여, 텍스트 설명과 일치하는 외관과 참조 비디오와 일관된 동작을 가진 비디오 생성이 가능함을 보여줍니다. 확산 모델을 이용한 동작 사용자 지정 분야에 기여합니다.
한계점: TAP과 AH 전략의 효과는 특정 유형의 확산 모델과 데이터셋에 국한될 수 있습니다. 다양한 종류의 확산 모델과 데이터셋에 대한 추가적인 실험이 필요합니다. 또한, 극도로 복잡하거나 다양한 동작을 포함하는 비디오에 대한 일반화 성능 평가가 필요합니다.
👍