# Programmatic Video Prediction Using Large Language Models

### 저자

Hao Tang, Kevin Ellis, Suhas Lohit, Michael J. Jones, Moitreya Chatterjee

### 개요

ProgGen은 대규모 언어/비전 모델(LLM/VLM)의 유도적 편향을 활용하여 비디오 프레임 예측을 수행하는 새로운 방법입니다.  비디오의 역동성을 신경 기호적이고 사람이 해석 가능한 상태 집합(프레임당 하나씩)으로 나타내어, LLM/VLM을 이용하여 (i) 시각적 맥락(프레임)을 기반으로 비디오 상태를 추정하고, (ii) 전이 역동성을 추정하여 미래 시간 단계에 해당하는 상태를 예측하며, (iii) 예측된 상태를 시각적 RGB 프레임으로 렌더링합니다.  PhyWorld와 Cart Pole이라는 두 가지 어려운 환경에서의 실험적 평가를 통해 기존 기법보다 우수한 비디오 프레임 예측 성능을 보였으며, 반실제적 추론과 해석 가능한 비디오 생성도 가능함을 보여줍니다.

### 시사점, 한계점

- **시사점:**

    - LLM/VLM을 활용하여 비디오 프레임 예측의 정확도를 향상시켰습니다.

    - 신경 기호적 상태 표현을 통해 사람이 해석 가능한 결과를 제공합니다.

    - 반실제적 추론 및 해석 가능한 비디오 생성이 가능합니다.

    - PhyWorld와 Cart Pole 환경에서 기존 방법보다 우수한 성능을 입증했습니다.

- **한계점:**

    - 제시된 두 가지 환경 외 다른 복잡한 환경에서의 성능은 추가적인 검증이 필요합니다.

    - LLM/VLM의 유도적 편향에 대한 의존성이 높아, 편향된 데이터로 훈련될 경우 성능 저하가 발생할 수 있습니다.

    - 실제 세계의 복잡하고 다양한 상황에 대한 일반화 성능에 대한 추가적인 연구가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2505.14948)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).