# VERTIGO: Visual Preference Optimization for Cinematic Camera Trajectory Generation

### 저자

Mengtian Li, Yuwei Lu, Feifei Li, Chenqi Gan, Zhifeng Xie, Xi Wang

### 💡 개요

본 논문은 텍스트 기반으로 생성되는 카메라 궤적 생성 모델이 감독의 피드백 없이 시각적으로 바람직하지 않은 결과(화면 밖 등장인물, 부적절한 구도 등)를 생성하는 문제를 해결하기 위해 VERTIGO라는 시각적 선호도 최적화 프레임워크를 제안합니다. VERTIGO는 실시간 그래픽 엔진을 통해 생성된 카메라 궤적의 2D 미리보기를 렌더링하고, 이를 시각-언어 모델이 텍스트 설명과 비교하여 평가함으로써 직접 선호도 최적화(DPO)를 위한 시각적 선호도 신호를 생성합니다. 실험 결과, VERTIGO는 조건 준수, 구도 품질, 인지적 사실감에서 일관된 향상을 보였으며, 특히 등장인물 화면 이탈률을 38%에서 거의 0%로 줄이면서도 카메라 궤적의 기하학적 충실도를 유지했습니다.

### 🔑 시사점 및 한계

- 텍스트 조건과 시각적 선호도를 효과적으로 결합하여 카메라 궤적 생성의 질적 향상을 달성할 수 있음을 입증했습니다.

- 실시간 렌더링과 시각-언어 모델을 활용한 선호도 학습 방식은 향후 다양한 생성 모델의 감독 피드백 통합에 적용될 수 있는 가능성을 제시합니다.

- 제안된 cyclic semantic similarity 메커니즘은 텍스트 프롬프트와 렌더링 결과 간의 연관성을 강화하는 데 기여했습니다.

- 본 연구는 주로 Unity 엔진 환경에서 실험되었으며, 다양한 렌더링 엔진 및 복잡한 장면에서의 일반화 성능은 추가적인 검증이 필요할 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2604.02467)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
