Synthio는 소규모 오디오 분류 데이터셋을 합성 데이터로 증강하는 새로운 방법을 제시합니다. 제한된 레이블 데이터로 오디오 분류 정확도를 향상시키는 것을 목표로 합니다. 기존의 데이터 증강 기법은 실제 오디오의 다양성을 충분히 반영하지 못하는 반면, Synthio는 텍스트 음성 변환(T2A) 확산 모델로 생성된 합성 오디오를 사용하여 데이터셋을 증강합니다. 합성된 데이터가 소규모 데이터셋과 음향적으로 일관성을 유지하고 충분한 구성적 다양성을 가져야 한다는 어려움을 해결하기 위해, 선호도 최적화를 통해 T2A 모델의 생성을 소규모 데이터셋과 정렬하고, 대규모 언어 모델의 추론 능력을 활용하여 다양하고 의미있는 오디오 캡션을 생성하고 반복적으로 개선하는 새로운 캡션 생성 기법을 제안합니다. 생성된 캡션은 정렬된 T2A 모델을 프롬프트하는 데 사용됩니다. Synthio는 10개의 데이터셋과 4개의 시뮬레이션된 제한된 데이터 설정에서 광범위하게 평가되었으며, 약하게 캡션이 지정된 AudioSet에서만 학습된 T2A 모델을 사용하여 모든 기준 모델보다 0.1%-39% 향상된 성능을 보였습니다.