Sign In

WorldModelBench: Judging Video Generation Models As World Models

Created by
  • Haebom
Category
Empty

저자

Dacheng Li, Yunhao Fang, Yukang Chen, Shuo Yang, Shiyi Cao, Justin Wong, Michael Luo, Xiaolong Wang, Hongxu Yin, Joseph E. Gonzalez, Ion Stoica, Song Han, Yao Lu

개요

본 논문은 로보틱스 및 자율 주행과 같은 의사결정 애플리케이션을 지원할 수 있는 비디오 월드 모델로서의 비디오 생성 모델의 발전에 중점을 둡니다. 기존 벤치마크가 일반적인 비디오 품질에만 집중하고 물리 법칙 준수와 같은 월드 모델의 중요한 요소들을 무시하는 한계를 지적하며, 애플리케이션 중심 영역에서 비디오 생성 모델의 월드 모델링 기능을 평가하도록 설계된 WorldModelBench 벤치마크를 제안합니다. WorldModelBench는 지시 사항 준수 및 물리 법칙 준수 차원을 통합하여 객체 크기의 불규칙한 변화와 같은 미묘한 위반 사항(질량 보존 법칙 위반 등)을 감지하고, 67,000개의 크라우드소싱된 인간 레이블을 사용하여 14개의 최첨단 모델을 정확하게 측정합니다. 또한, 인간 주석과의 정렬을 통해 월드 모델링 기능을 향상시키는 것을 보여줍니다.

시사점, 한계점

시사점:
기존 비디오 생성 모델 평가의 한계를 극복하고, 물리 법칙 준수 등 월드 모델링 측면을 고려한 새로운 벤치마크 WorldModelBench 제시.
대규모 인간 레이블 데이터를 활용하여 더욱 정확한 평가 및 자동화된 평가 절차 구현.
인간 주석과의 정렬을 통한 월드 모델링 기능 향상 가능성 제시.
WorldModelBench 웹사이트를 통해 접근 가능.
한계점:
WorldModelBench의 평가 기준 및 범위가 특정 애플리케이션 영역에 국한될 가능성.
크라우드소싱된 데이터의 주관성 및 오류 가능성.
평가에 사용된 모델의 종류 및 다양성이 제한적일 수 있음.
👍