Fast Text-to-Audio Generation with Adversarial Post-Training
Created by
Haebom
저자
Zachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, Jordi Pons
개요
본 논문은 추론 시간이 느려 많은 창의적인 응용 분야에 적용하기 어려운 텍스트 음성 변환 시스템의 문제점을 해결하기 위해, 증류 기반이 아닌 최초의 적대적 가속 알고리즘인 Adversarial Relativistic-Contrastive (ARC) 후속 학습 방법을 제시한다. 기존의 적대적 후속 학습 방법들이 비용이 많이 드는 증류 기반 방법과 비교하는 데 어려움을 겪었던 것과 달리, ARC 후속 학습은 간단한 절차로 기존의 상대적 적대적 공식을 확장하고 새로운 대조적 판별자 목표를 결합하여 프롬프트 준수를 향상시킨다. Stable Audio Open에 여러 최적화 기법을 적용하여 H100에서는 약 75ms에 44.1kHz 스테레오 오디오 약 12초를, 모바일 에지 디바이스에서는 약 7초를 생성하는, 현재까지 가장 빠른 텍스트 음성 변환 모델을 구축했다.
시사점, 한계점
•
시사점:
◦
증류 기반 방법에 비해 효율적인 적대적 후속 학습 방법을 제시하여 텍스트 음성 변환 모델의 추론 속도를 획기적으로 향상시켰다.
◦
H100 및 모바일 에지 디바이스에서 매우 빠른 추론 속도를 달성하여 실시간 응용 분야에 적용 가능성을 높였다.
◦
Stable Audio Open과 같은 기존 모델에 적용 가능한 일반적인 방법론을 제시했다.
•
한계점:
◦
제시된 방법의 성능은 Stable Audio Open 모델에 대한 결과에 국한되어 있으며, 다른 모델에 대한 일반화 성능은 추가적인 연구가 필요하다.
◦
모바일 에지 디바이스에서의 성능은 특정 디바이스에 대한 결과이며, 다양한 디바이스에 대한 성능 평가가 필요하다.