본 논문은 오디오 정보에 중점을 둔 비디오 이해 벤치마크인 AVUT(Audio-centric Video Understanding Benchmark)를 제안합니다. 기존의 시각 정보 중심의 접근 방식에서 벗어나, 오디오가 제공하는 맥락, 감정적 단서, 의미 정보 등을 비디오 이해에 중요한 요소로 강조합니다. AVUT는 오디오 콘텐츠와 시청각 상호작용에 대한 이해를 종합적으로 평가하는 다양한 과제들을 포함하며, 기존 벤치마크에서 나타나는 질문 텍스트만으로 정답을 유추할 수 있는 "텍스트 지름길 문제"를 해결하기 위해 답변 순열 기반 필터링 메커니즘을 제시합니다. 다양한 오픈소스 및 독점 멀티모달 LLM들을 대상으로 평가를 수행하고, 시청각 LLM의 결함을 분석합니다. 데모와 데이터는 https://github.com/lark-png/AVUT 에서 확인할 수 있습니다.