본 논문은 오디오 모달리티를 중심으로 한 심층 추론을 위한 대규모 오디오 언어 모델인 Audio-Reasoner를 제안합니다. 단순한 주석을 사용하여 대규모 다중 작업 오디오 데이터셋을 꼼꼼하게 구성하고, 폐쇄형 모델을 활용하여 보조 라벨링, 질의응답 생성 및 구조화된 사고 과정(CoT)을 수행하여 120만 개의 추론 중심 샘플로 구성된 고품질 추론 데이터셋 CoTA를 생성했습니다. CoTA를 사용하여 Audio-Reasoner를 훈련시킨 결과, MMAU-mini, AIR-Bench chat/foundation, MELD 등 주요 벤치마크에서 최첨단 성능을 달성했습니다. 이를 통해 구조화된 CoT 훈련이 오디오 추론 발전에 핵심임을 강조합니다.