본 논문은 물리적으로 타당하지 않은 동작을 생성하는 기존 비디오 확산 모델(VDM)의 한계를 극복하기 위해, 물리를 명시적으로 통합한 새로운 2단계 이미지-비디오 생성 프레임워크를 제안합니다. 1단계에서는 비전 언어 모델(VLM)을 사용하여 사전에 물리 법칙을 고려한 거친 동작 경로를 계획하고, 2단계에서는 이 경로를 가이드 삼아 VDM으로 비디오를 생성합니다. VDM에 자유도를 부여하기 위해, 거친 동작 경로에는 노이즈가 추가됩니다. 실험 결과, 제안된 프레임워크가 물리적으로 타당한 동작을 생성하며 기존 방법보다 우수함을 보여줍니다.