MECAT: A Multi-Experts Constructed Benchmark for Fine-Grained Audio Understanding Tasks
Created by
Haebom
Category
Empty
저자
Yadong Niu, Tianzi Wang, Heinrich Dinkel, Xingwei Sun, Jiahao Zhou, Gang Li, Jizhong Liu, Xunying Liu, Junbo Zhang, Jian Luan
개요
본 논문은 대규모 오디오-언어 모델의 세밀한 오디오 이해 능력의 부족을 해결하기 위해, 전문가 모델 분석과 사고연쇄(Chain-of-Thought) 방식의 대규모 언어 모델 추론을 통합한 새로운 벤치마크 MECAT을 제시합니다. MECAT은 다각적인 관점의 세밀한 캡션과 개방형 질의응답 쌍을 제공하며, 일반적인 용어를 감소시키고 세부적인 설명을 강조하는 새로운 평가 지표 DATE(Discriminative-Enhanced Audio Text Evaluation)를 함께 제안합니다. 최첨단 오디오 모델에 대한 종합적인 평가를 통해 현재 성능과 한계를 분석하고, 데이터와 코드를 공개합니다.