Fast Text-to-Audio Generation with Adversarial Post-Training
Created by
Haebom
저자
Zachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, Jordi Pons
개요
본 논문은 추론 시간이 느려 많은 창의적인 응용 분야에 적용하기 어려운 텍스트 음성 변환 시스템의 문제점을 해결하기 위해, 증류 기반이 아닌 최초의 적대적 가속 알고리즘인 Adversarial Relativistic-Contrastive (ARC) 사후 훈련 방법을 제시합니다. 기존의 적대적 사후 훈련 방법들이 비용이 많이 드는 증류 방법과 비교하여 성능이 저조했던 것과 달리, ARC 사후 훈련은 최근의 상대적 적대적 공식을 확장하고 새로운 대조적 판별자 목적 함수를 결합하여 프롬프트 준수성을 향상시키는 간단한 절차입니다. Stable Audio Open에 ARC 사후 훈련과 여러 최적화 기법을 적용하여 H100에서 약 12초 길이의 44.1kHz 스테레오 오디오를 약 75ms 만에, 모바일 에지 장치에서는 약 7초 길이의 오디오를 생성하는, 현재까지 가장 빠른 텍스트 음성 변환 모델을 구축했습니다.
시사점, 한계점
•
시사점:
◦
기존 증류 기반 방법보다 효율적인 적대적 사후 훈련 방법을 제시하여 텍스트 음성 변환 모델의 추론 속도를 크게 향상시켰습니다.
◦
H100 및 모바일 에지 장치에서 매우 빠른 추론 속도를 달성하여 실시간 응용에 적합한 모델을 구축했습니다.
◦
ARC 사후 훈련은 간단한 절차로 구현되어 다른 모델에도 쉽게 적용될 수 있습니다.
•
한계점:
◦
본 논문에서 제시된 모델의 성능은 특정 하드웨어(H100, 모바일 에지 장치)에서 측정되었으므로 다른 하드웨어 환경에서는 성능이 달라질 수 있습니다.
◦
모델의 음질에 대한 정량적 평가가 부족합니다. 속도 향상에 대한 초점이 음질 개선보다 우선시 되었을 가능성이 있습니다.
◦
ARC 사후 훈련의 일반화 성능에 대한 추가적인 연구가 필요합니다. 다양한 데이터셋과 모델에 대한 실험 결과가 제한적입니다.