See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models

Created by

Haebom

저자

Le Thien Phuc Nguyen, Zhuoran Yu, Samuel Low Yu Hang, Subin An, Jeongik Lee, Yohan Ban, SeungEun Chung, Thanh-Huy Nguyen, JuWan Maeng, Soochahn Lee, Yong Jae Lee

💡 개요

기존 영상 기반 멀티모달 대규모 언어 모델(MLLM) 벤치마크는 인간의 음성에 대한 미세한 추론 능력을 충분히 평가하지 못합니다. 본 논문은 누가 말하고, 무엇을 말하며, 언제 말하는지에 대한 화자 중심의 영상-음성 추론을 평가하는 새로운 벤치마크인 AV-SpeakerBench를 제안합니다. AV-SpeakerBench는 3,212개의 객관식 문제로 구성되며, 화자를 핵심 추론 단위로 삼고, 영상-음성 종속성을 질문 의미에 포함시키며, 전문가 수준의 정밀한 주석을 특징으로 합니다.

🔑 시사점 및 한계

•

AV-SpeakerBench는 MLLM의 미세한 음성 이해 및 화자 중심 추론 능력을 평가하는 데 있어 중요한 새로운 기준점을 제시합니다.

•

Gemini 모델이 현재 오픈 소스 모델보다 월등한 성능을 보이며, 특히 Gemini 2.5 Pro가 최상위 성능을 달성했습니다. 이는 모델의 영상-음성 융합 능력이 성능에 중요한 영향을 미침을 시사합니다.

•

현재 벤치마크는 실제 복잡한 상황에서의 MLLM 음성 이해 능력을 평가하기 위한 시작점이며, 향후 다양한 음성 특징 및 복합적인 추론 능력을 평가하는 방향으로 발전이 필요합니다.

PDF 보기

Made with Slashpage