Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising

Created by
  • Haebom
Category
Empty

저자

Assaf Singer, Noam Rotstein, Amir Mann, Ron Kimmel, Or Litany

개요

Time-to-Move (TTM)는 이미지-to-비디오(I2V) 확산 모델을 사용하여, 훈련 없이 이미지와 텍스트 기반 컨디셔닝의 한계를 넘어선 정밀한 모션 및 외관 제어를 제공하는 플러그 앤 플레이 프레임워크입니다. 사용자는 잘라내기-드래그 또는 깊이 기반 재투영과 같은 간단한 조작을 통해 조악한 참조 애니메이션을 생성하고, 이를 조악한 모션 단서로 활용합니다. TTM은 이 조작을 SDEdit의 아이디어를 비디오 도메인에 적용하여, 사용자 의도에 대한 충실도와 자연스러운 역학의 균형을 맞추기 위해 듀얼 클럭 디노이징(dual-clock denoising) 전략을 도입합니다. 이 전략은 모션이 지정된 영역에서 강력한 정렬을 유지하면서 다른 영역에서는 유연성을 허용합니다. TTM은 추가적인 훈련이나 런타임 비용 없이 구현 가능하며 모든 백본과 호환됩니다. 실험 결과, TTM은 기존 훈련 기반 방식에 필적하거나 능가하는 현실감과 모션 제어를 보여주며, 픽셀 단위 컨디셔닝을 통한 정밀한 외관 제어 기능을 제공합니다.

시사점, 한계점

시사점:
훈련 없이 이미지 기반 I2V 모델에서 정밀한 모션 및 외관 제어 가능성을 제시.
사용자 친화적인 조작을 통해 생성된 조악한 애니메이션을 모션 제어 단서로 활용하는 혁신적인 접근 방식.
듀얼 클럭 디노이징을 통한 모션 제어와 자연스러운 동역학 간의 균형.
추가적인 훈련이나 런타임 비용 없이 구현 가능.
텍스트 기반 프롬프팅의 한계를 넘어선 픽셀 단위 외관 제어 기능 제공.
한계점:
논문에 명시된 한계점은 직접적으로 나타나지 않음. (제시된 내용은 모두 장점 위주로 설명)
👍