AudioCapBench: Quick Evaluation on Audio Captioning across Sound, Music, and Speech

Created by

Haebom

저자

Jielin Qiu, Jianguo Zhang, Zixiang Chen, Liangwei Yang, Ming Zhu, Juntao Tan, Haolin Chen, Wenting Zhao, Rithesh Murthy, Roshan Ram, Akshara Prabhakar, Shelby Heinecke, Caiming, Xiong, Silvio Savarese, Huan Wang

💡 개요

본 논문은 대규모 멀티모달 모델의 오디오 캡셔닝 능력을 평가하기 위한 벤치마크인 AudioCapBench를 제안한다. 이 벤치마크는 환경음, 음악, 음성 등 세 가지 오디오 도메인에서 1,000개의 평가 샘플을 포함하며, 참조 기반 지표와 LLM-as-Judge 프레임워크를 사용하여 13개 모델을 평가한다. 연구 결과, Gemini 모델이 전반적인 캡셔닝 품질에서 OpenAI 모델보다 우수했으며, 모든 모델이 음성 캡셔닝에서 가장 좋은 성능을 보였다.

🔑 시사점 및 한계

•

AudioCapBench는 다양한 오디오 도메인에 걸쳐 오디오 캡셔닝 모델의 성능을 체계적으로 평가할 수 있는 표준화된 방법론을 제공한다.

•

Gemini 모델이 OpenAI 모델보다 전반적으로 우수한 성능을 보였으며, 특히 음성 캡셔닝에서 강점을 나타냈다.

•

음악 캡셔닝은 모든 모델에게 가장 어려운 과제였으며, 이는 음악의 복잡성과 주관성에 기인할 수 있다.

•

hallucination(환각) 평가는 모델의 신뢰성을 측정하는 데 중요한 지표로 활용될 수 있다.

•

본 벤치마크 및 평가 코드를 공개하여 향후 오디오 이해 연구의 재현성을 높이고 발전을 촉진할 수 있다.

•

평가 샘플의 양이 상대적으로 적고, 특정 유형의 오디오에 편중될 가능성이 있어 더 포괄적인 데이터셋 구축이 필요하다.

•

LLM-as-Judge 프레임워크는 평가자 간 일관성 및 평가의 객관성에 대한 추가적인 연구가 필요하다.

PDF 보기

Made with Slashpage