본 논문은 대규모 비디오 생성 모델의 시각적 능력을 활용하여 이미지에서 비디오를 생성하는 새로운 방법인 "In-Video Instruction"을 제시합니다. 이는 텍스트 기반 프롬프트 대신, 프레임 내 시각적 요소(예: 텍스트, 화살표)를 지침으로 해석하여 객체의 동작을 제어합니다. Veo 3.1, Kling 2.5, Wan 2.2와 같은 최신 생성기를 사용하여 복잡한 다중 객체 시나리오에서 시각적으로 내장된 지침을 모델이 정확하게 해석하고 실행할 수 있음을 실험적으로 입증합니다.