Sign In

Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models

Created by
  • Haebom
Category
Empty

저자

Zhifei Xie, Mingbao Lin, Zihang Liu, Pengcheng Wu, Shuicheng Yan, Chunyan Miao

개요

본 논문은 오디오 모달리티를 중심으로 한 심층 추론을 위한 대규모 오디오 언어 모델인 Audio-Reasoner를 제안합니다. 단순한 주석을 사용하여 대규모 다중 작업 오디오 데이터셋을 꼼꼼하게 구성하고, 폐쇄형 모델을 활용하여 보조 라벨링, 질의응답 생성 및 구조화된 사고 과정(CoT)을 수행하여 120만 개의 추론 중심 샘플로 구성된 고품질 추론 데이터셋 CoTA를 생성했습니다. CoTA를 사용하여 Audio-Reasoner를 훈련시킨 결과, MMAU-mini, AIR-Bench chat/foundation, MELD 등 주요 벤치마크에서 최첨단 성능을 달성했습니다. 이를 통해 구조화된 CoT 훈련이 오디오 추론 발전에 핵심임을 강조합니다.

시사점, 한계점

시사점:
오디오 모달리티를 중심으로 한 심층 추론 분야의 발전에 기여.
대규모 고품질 오디오 추론 데이터셋 CoTA 구축.
구조화된 CoT 훈련의 효과성을 입증.
다양한 오디오 추론 벤치마크에서 최첨단 성능 달성.
한계점:
폐쇄형 모델에 의존하여 데이터셋을 구축했기에 투명성 및 재현성에 대한 한계 존재.
CoTA 데이터셋의 균형 및 일반화 성능에 대한 추가적인 검증 필요.
Audio-Reasoner의 추론 과정에 대한 해석력 향상 필요.
👍