See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models
Created by
Haebom
Category
Empty
저자
Le Thien Phuc Nguyen, Zhuoran Yu, Samuel Low Yu Hang, Subin An, Jeongik Lee, Yohan Ban, SeungEun Chung, Thanh-Huy Nguyen, JuWan Maeng, Soochahn Lee, Yong Jae Lee
AV-SpeakerBench: Speaker-Centric Audiovisual Reasoning Benchmark for Multimodal Large Language Models
개요
본 논문은 시각, 청각, 언어를 결합하여 이해하는 멀티모달 대규모 언어 모델(MLLM)의 성능 평가를 위해 개발된 AV-SpeakerBench에 대해 소개한다. AV-SpeakerBench는 실제 비디오를 기반으로 하며, 사람의 음성에 대한 미세한 추론 능력을 평가하는 데 초점을 맞춘 3,212개의 객관식 문제로 구성된다. 이 벤치마크는 화자를 중심으로 구성되었으며, 오디오-비주얼 의존성을 질문 의미에 통합하는 방식으로 설계되었다. Gemini 계열 모델이 우수한 성능을 보였으며, Qwen3-Omni-30B는 Gemini 2.0 Flash에 근접했으나 Gemini 2.5 Pro에는 미치지 못했다.