본 논문은 오디오-언어 사전 훈련이 일반적인 오디오 이해에 대한 잠재력을 가지고 있음에도 불구하고, 시각 언어 모델에 비해 연구가 부족하다는 점을 지적합니다. 저자들은 대규모 오디오-텍스트 코퍼스 부족, 캡션 다양성 부족, 체계적인 탐색 및 평가 부족을 주요 장벽으로 인식하고, 이를 해결하기 위해 다양한 오픈 소스 오디오-텍스트 코퍼스를 집계한 1070만 개의 캡션 데이터 세트인 CaptionStew를 소개합니다. CaptionStew를 사용하여, 음성, 음악, 환경 소리 작업을 포함하여 오디오 표현 학습을 위한 대비 및 캡셔닝 목표를 비교하는 최초의 포괄적인 평가를 수행합니다. 그 결과 오디오-언어 사전 훈련이 경쟁력 있고 전이 가능한 표현을 생성한다는 것을 보여주었습니다. 또한 체계적인 데이터 크기 조정 실험을 통해, 대비 학습이 작은 규모에서 데이터 효율성이 뛰어나고, 캡셔닝이 언어 관련 오디오 이해 작업에서 더 나은 확장성을 보인다는 것을 발견했습니다. 또한 일반적인 지도 초기화 방식이 대규모에서 효과가 감소한다는 점을 확인했습니다. 이러한 결과는 일반적인 오디오 표현을 위한 실행 가능한 경로로서 오디오-언어 사전 훈련의 가능성을 제시하고, 미래 연구를 위한 지침을 제공합니다. 연구 진전을 가속화하기 위해 데이터 준비 레시피, 훈련 프로토콜 및 사전 훈련된 모델을 공개하여 보편적인 오디오 이해를 위한 길을 열었습니다.