Time-to-Move (TTM)는 이미지-to-비디오(I2V) 확산 모델을 사용하여, 훈련 없이 이미지와 텍스트 기반 컨디셔닝의 한계를 넘어선 정밀한 모션 및 외관 제어를 제공하는 플러그 앤 플레이 프레임워크입니다. 사용자는 잘라내기-드래그 또는 깊이 기반 재투영과 같은 간단한 조작을 통해 조악한 참조 애니메이션을 생성하고, 이를 조악한 모션 단서로 활용합니다. TTM은 이 조작을 SDEdit의 아이디어를 비디오 도메인에 적용하여, 사용자 의도에 대한 충실도와 자연스러운 역학의 균형을 맞추기 위해 듀얼 클럭 디노이징(dual-clock denoising) 전략을 도입합니다. 이 전략은 모션이 지정된 영역에서 강력한 정렬을 유지하면서 다른 영역에서는 유연성을 허용합니다. TTM은 추가적인 훈련이나 런타임 비용 없이 구현 가능하며 모든 백본과 호환됩니다. 실험 결과, TTM은 기존 훈련 기반 방식에 필적하거나 능가하는 현실감과 모션 제어를 보여주며, 픽셀 단위 컨디셔닝을 통한 정밀한 외관 제어 기능을 제공합니다.