본 논문은 물리적 힘을 제어 신호로 사용하여 비디오 생성을 연구하고, 사용자가 국소적인 점 힘(식물을 찌르는 것)과 전역적인 바람 힘장(천에 부는 바람)을 통해 이미지와 상호 작용할 수 있도록 하는 힘 프롬프트(force prompts)를 제안합니다. 사전 훈련된 모델의 시각 및 운동 사전 정보를 활용하여 추론 시 3D 자산이나 물리 시뮬레이터 없이도 비디오가 물리적 제어 신호에 현실적으로 반응하도록 합니다. 제한된 훈련 데이터(약 1,5000개 예시)를 사용하여 Blender로 합성된 비디오로부터 물리적 힘 조건을 따르도록 모델을 적응시켰으며, 다양한 기하학적 형태, 설정 및 재료에 걸쳐 힘을 시뮬레이션하는 비디오를 생성합니다. 일반화의 원인을 분석하여 시각적 다양성과 특정 키워드 사용이 중요함을 밝혔습니다. 제안된 방법은 기존 방법보다 힘 준수 및 물리적 현실성 면에서 우수한 성능을 보이며, 데이터셋, 코드, 가중치 및 대화형 비디오 데모를 공개합니다.