Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data

Created by
  • Haebom
Category
Empty

저자

Sreyan Ghosh, Sonal Kumar, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, Dinesh Manocha

개요

Synthio는 소규모 오디오 분류 데이터셋을 합성 데이터로 증강하는 새로운 방법을 제시합니다. 제한된 레이블 데이터로 오디오 분류 정확도를 향상시키는 것을 목표로 합니다. 기존의 데이터 증강 기법은 실제 오디오의 다양성을 충분히 반영하지 못하는 반면, Synthio는 텍스트 음성 변환(T2A) 확산 모델로 생성된 합성 오디오를 사용하여 데이터셋을 증강합니다. 합성된 데이터가 소규모 데이터셋과 음향적으로 일관성을 유지하고 충분한 구성적 다양성을 가져야 한다는 어려움을 해결하기 위해, 선호도 최적화를 통해 T2A 모델의 생성을 소규모 데이터셋과 정렬하고, 대규모 언어 모델의 추론 능력을 활용하여 다양하고 의미있는 오디오 캡션을 생성하고 반복적으로 개선하는 새로운 캡션 생성 기법을 제안합니다. 생성된 캡션은 정렬된 T2A 모델을 프롬프트하는 데 사용됩니다. Synthio는 10개의 데이터셋과 4개의 시뮬레이션된 제한된 데이터 설정에서 광범위하게 평가되었으며, 약하게 캡션이 지정된 AudioSet에서만 학습된 T2A 모델을 사용하여 모든 기준 모델보다 0.1%-39% 향상된 성능을 보였습니다.

시사점, 한계점

시사점:
제한된 레이블 데이터를 가진 소규모 오디오 분류 데이터셋의 성능 향상에 효과적임.
기존 데이터 증강 기법의 한계를 극복하는 새로운 접근 방식 제시.
대규모 언어 모델과 T2A 모델을 결합하여 합성 데이터의 질과 다양성을 향상시킴.
다양한 데이터셋과 설정에서 일관되게 성능 향상을 보임.
한계점:
T2A 모델의 성능에 의존적일 수 있음. (AudioSet으로만 학습된 모델 사용)
생성된 합성 데이터가 실제 데이터와 완벽히 동일하지 않을 수 있음.
대규모 언어 모델과 T2A 모델의 학습 비용이 상대적으로 높을 수 있음.
사용된 T2A 모델의 특성에 따라 성능이 달라질 수 있음.
👍