Audio Flamingo 3 (AF3)는 음성, 소리, 음악을 아우르는 최첨단 오픈소스 대규모 오디오-언어 모델입니다. AF3는 세 가지 모달리티(음성, 소리, 음악)에 대한 통합적인 표현 학습을 위한 새로운 전략을 사용하여 훈련된 통합 오디오 인코더인 AF-Whisper, 질문에 답하기 전에 사고 과정을 수행할 수 있도록 하는 유연한 주문형 사고 기능, 다중 턴, 다중 오디오 채팅, 최대 10분 길이의 오디오 이해 및 추론(음성 포함), 음성 간 상호 작용 등의 기능을 제공합니다. 이러한 기능을 가능하게 하기 위해 AudioSkills-XL, LongAudio-XL, AF-Think, AF-Chat 등의 새로운 전략을 사용하여 큐레이션된 대규모 훈련 데이터셋과 5단계 커리큘럼 기반 훈련 전략을 제안합니다. 오픈소스 오디오 데이터로만 훈련되었음에도 불구하고, AF3는 20개 이상의 (긴) 오디오 이해 및 추론 벤치마크에서 최첨단 결과를 달성하여 훨씬 더 큰 데이터셋으로 훈련된 오픈 및 클로즈드 소스 모델을 모두 능가합니다.