Demystifying Video Reasoning

Author

Haebom

저자

Ruisi Wang, Zhongang Cai, Fanyi Pu, Junxiang Xu, Wanqi Yin, Maijunxian Wang, Ran Ji, Chenyang Gu, Bo Li, Ziqi Huang, Hokin Deng, Dahua Lin, Ziwei Liu, Lei Yang

💡 개요

본 연구는 최근 발전된 비디오 생성 모델, 특히 확산 기반 모델에서 나타나는 비범한 추론 능력을 탐구합니다. 기존의 프레임 순차적 추론(Chain-of-Frames, CoF) 가설을 반박하며, 실제로는 확산 과정의 노이즈 제거 단계(denoising steps)를 따라 추론이 이루어지는 'Chain-of-Steps(CoS)' 메커니즘을 발견했습니다. 이 메커니즘은 조기 노이즈 제거 단계에서 여러 후보 해결책을 탐색하고 점진적으로 수렴하는 과정으로, 모델 성능 향상에 기여하는 작업 기억, 자기 수정, 선지각 후행동과 같은 부가적인 추론 행동들도 함께 규명했습니다.

🔑 시사점 및 한계

•

비디오 생성 모델의 추론 능력은 프레임 순서가 아닌 확산 노이즈 제거 단계의 순차적인 연산 과정에서 주로 발생한다는 점을 밝혔습니다.

•

확산 모델 내에서 기능적 전문화(early layers: 지각, middle layers: 추론, later layers: 표현 통합)가 일어나며, 이는 추론 과정에 중요한 역할을 합니다.

•

이러한 통찰을 바탕으로, 단일 모델에서 여러 무작위 시드(seed)의 잠재 궤적(latent trajectories)을 앙상블하는 훈련 없이도 추론 성능을 향상시킬 수 있는 간단한 전략을 제시했습니다.

•

본 연구는 비디오 생성 모델의 내재된 추론 동역학을 이해하고 활용하기 위한 기초를 제공하지만, CoS 메커니즘의 모든 측면을 탐색한 것은 아니며, 실제 다양한 추론 작업에서의 성능 향상 가능성을 추가적으로 검증할 필요가 있습니다.

PDF 보기

Made with Slashpage