ProgGen은 대규모 언어/비전 모델(LLM/VLM)의 유도적 편향을 활용하여 비디오 프레임 예측을 수행하는 새로운 방법입니다. 비디오의 역동성을 신경 기호적이고 사람이 해석 가능한 상태 집합(프레임당 하나씩)으로 나타내어, LLM/VLM을 이용하여 (i) 시각적 맥락(프레임)을 기반으로 비디오 상태를 추정하고, (ii) 전이 역동성을 추정하여 미래 시간 단계에 해당하는 상태를 예측하며, (iii) 예측된 상태를 시각적 RGB 프레임으로 렌더링합니다. PhyWorld와 Cart Pole이라는 두 가지 어려운 환경에서의 실험적 평가를 통해 기존 기법보다 우수한 비디오 프레임 예측 성능을 보였으며, 반실제적 추론과 해석 가능한 비디오 생성도 가능함을 보여줍니다.