본 연구는 공동 오디오-비디오 생성 모델이 실제 물리 법칙을 이해하는지, 아니면 단순히 그럴듯한 결과물을 생성하는지를 평가하기 위해 AV-Phys Bench라는 새로운 벤치마크를 제안합니다. 이 벤치마크는 다양한 장면 유형과 물리적 일관성을 테스트하며, 기존 모델들의 물리적 이해도가 여전히 부족함을 보여줍니다. 특히, 전환이 발생하는 장면이나 물리적으로 일관되지 않은 요청에 대해 성능 저하가 두드러지며, 인간 평가와 유사한 결과를 도출하는 AV-Phys Agent 평가자를 함께 소개합니다.
🔑 시사점 및 한계
•
공동 오디오-비디오 생성 모델은 아직 물리적 상식이나 실제 세계의 일관성을 제대로 이해하지 못하며, 이는 모델 개발의 중요한 장애물입니다.
•
장면 전환(event/environment transition)과 같이 역동적인 상황에서의 물리적 일관성 유지가 현재 모델들의 핵심적인 약점입니다.
•
인간의 평가와 유사한 자동 평가자(AV-Phys Agent) 개발은 향후 공동 오디오-비디오 생성 모델 평가의 효율성을 높일 수 있습니다.
•
향후 연구는 모델이 물리 법칙을 더 깊이 이해하고, 복잡한 장면 전환 속에서도 일관성을 유지하며, 인간의 물리적 직관을 따르도록 개선하는 데 초점을 맞춰야 합니다.