Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge
Created by
Haebom
저자
Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan Catanzaro
개요
DCASE 2025 챌린지의 Task 5는 다양한 음향 이해 영역을 포괄하는 오디오 질의응답(AQA) 벤치마크입니다. 해양 포유류 소리부터 사운드스케이프, 복잡한 실제 세계 클립까지 다양한 음향 장면에 대한 대화형 질의응답에서 오디오-언어 모델을 테스트하기 위해 생물음향학, 시간적 사운드스케이프, 복잡한 QA의 세 가지 QA 하위 집합을 정의합니다. 데이터셋 구성, 평가 프로토콜(정답 섞기 강건성을 갖춘 상위 1개 정확도), 그리고 기준 시스템(Qwen2-Audio-7B, AudioFlamingo 2, Gemini-2-Flash)을 설명합니다. 개발 세트에 대한 예비 결과는 모델과 하위 집합 간의 강한 변동성을 보여줍니다. 이 챌린지는 AI 에이전트가 효과적으로 세상을 인지하고 상호 작용할 수 있도록 하는 데 중요한 인간 수준의 예리함을 향한 오디오 이해 및 추론 기능을 향상시키는 것을 목표로 합니다.
시사점, 한계점
•
시사점: 다양한 음향 장면에 대한 오디오-언어 모델의 질의응답 능력을 평가하는 새로운 벤치마크를 제공합니다. 오디오 이해 및 추론 기능 발전에 기여할 수 있습니다. 다양한 모델의 성능 비교를 통해 향후 연구 방향을 제시합니다.
•
한계점: 현재는 예비 결과만 제시되어 있으며, 최종 결과 및 더 자세한 분석이 필요합니다. 모델과 하위 집합 간의 성능 차이에 대한 원인 분석이 부족합니다. 데이터셋의 균형과 대표성에 대한 검토가 필요할 수 있습니다.