본 논문은 오디오 정보에 중점을 둔 비디오 이해 벤치마크인 ACVUBench를 제안합니다. 기존의 오디오-비주얼 대규모 언어 모델(LLM)들이 오디오를 보조적인 정보로만 활용하는 것에 반해, ACVUBench는 오디오 정보의 중요성을 강조하며, 18개 도메인에 걸친 2,662개의 비디오와 13,000개 이상의 고품질 수동 주석/검증 질문-답변 쌍을 포함합니다. 여러 오디오 중심 과제를 통해 오디오 콘텐츠와 오디오-비주얼 상호작용에 대한 이해를 종합적으로 평가하며, 다양한 오픈소스 및 독점적 다중 모달 LLM에 대한 평가와 오디오-비주얼 LLM의 결점 분석을 수행합니다. 데모는 GitHub에서 확인 가능합니다.