본 논문은 고품질의 대규모 오디오 캡셔닝을 위한 새로운 두 단계 자동화 파이프라인을 제시한다. 기존 방법들의 세밀한 디테일과 맥락 정확성 부족 문제를 해결하기 위해, 사람의 청각 인지 능력에서 영감을 얻어 다양한 맥락적 단서(음성, 음악, 일반적인 소리, 관련 비디오의 시각 정보 등)를 추출하는 전문적으로 사전 훈련된 모델을 사용한다. 그 후, 대규모 언어 모델(LLM)을 이용하여 이러한 풍부한 다중 모달 입력을 종합하여 세부적이고 맥락을 고려한 오디오 캡션을 생성한다. 주요 기여는 세밀한 오디오 캡션 생성을 위한 확장 가능한 방법, 120만 개의 상세 캡션과 600만 개의 QA 쌍으로 구성된 새로운 대규모 데이터셋 FusionAudio, 그리고 FusionAudio를 사용하여 개발된 향상된 오디오 모델(우수한 오디오-텍스트 정렬 및 지시 사항 따르기를 갖춘 CLAP 기반 오디오 인코더)이다.