"PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models
Created by
Haebom
저자
Jing Gu, Xian Liu, Yu Zeng, Ashwin Nagarajan, Fangrui Zhu, Daniel Hong, Yue Fan, Qianqi Yan, Kaiwen Zhou, Ming-Yu Liu, Xin Eric Wang
개요
본 논문은 물리 법칙 준수 여부를 기반으로 비디오 생성 모델을 평가하기 위한 종합적인 벤치마크인 PhyWorldBench를 제시합니다. PhyWorldBench는 물체 운동 및 에너지 보존과 같은 기본 원리부터 강체 상호 작용 및 인간 또는 동물의 움직임을 포함하는 더 복잡한 시나리오에 이르기까지 다양한 수준의 물리적 현상을 다룹니다. 또한 의도적으로 현실 세계의 물리 법칙을 위반하는 프롬프트를 사용하는 "Anti-Physics" 범주를 도입하여 모델이 논리적 일관성을 유지하면서 이러한 지시 사항을 따를 수 있는지 평가합니다. 대규모 인간 평가 외에도, 현재 MLLM을 활용하여 제로샷 방식으로 물리적 현실성을 평가할 수 있는 간단하면서도 효과적인 방법을 제시합니다. 12개의 최첨단 텍스트-비디오 생성 모델(오픈소스 5개, 독점 모델 5개)을 평가하고 자세한 비교 분석을 통해 현실 세계의 물리 법칙 준수에 있어 모델이 직면하는 중대한 과제를 파악합니다. 1,050개의 큐레이션된 프롬프트(기본, 복합 및 반물리적 시나리오)를 통해 광범위한 테스트를 수행하여 다양한 프롬프트 유형을 가진 다양한 물리적 현상에 대한 성능을 엄격하게 검토하고 물리적 원칙에 대한 충실도를 높이는 프롬프트 작성을 위한 목표 지침을 도출합니다.
시사점, 한계점
•
시사점: PhyWorldBench는 비디오 생성 모델의 물리적 현실성을 평가하기 위한 표준화된 벤치마크를 제공합니다. 제로샷 평가 방법은 효율적인 모델 평가를 가능하게 합니다. 다양한 물리적 현상과 프롬프트 유형에 대한 분석을 통해 모델 개선을 위한 구체적인 방향을 제시합니다.
•
한계점: 벤치마크의 포괄성에도 불구하고, 실제 세계의 모든 물리적 현상을 완벽하게 반영하기는 어렵습니다. MLLM 기반 제로샷 평가 방법의 정확도는 추가 연구가 필요합니다. 평가에 사용된 모델의 종류와 수가 제한적일 수 있습니다.