Fast Text-to-Audio Generation with Adversarial Post-Training
Created by
Haebom
저자
Zachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, Jordi Pons
개요
본 논문은 추론 속도가 느려 창의적인 응용 분야에 적용하기 어려운 텍스트 음성 변환 시스템의 문제점을 해결하기 위해, 증류 방식이 아닌 최초의 적대적 가속 알고리즘인 Adversarial Relativistic-Contrastive (ARC) 후처리를 제시합니다. ARC 후처리는 기존 적대적 후처리 방식의 한계를 극복하고, 기존의 비용이 많이 드는 증류 방식과 비교하여 우수한 성능을 보입니다. 이는 최신 상대적 적대적 공식을 확장하고, 새로운 대조적 판별자 목적 함수를 결합하여 프롬프트 준수성을 향상시키는 간단한 절차입니다. Stable Audio Open에 ARC 후처리와 여러 최적화 기법을 적용하여 H100에서 약 12초 분량의 44.1kHz 스테레오 오디오를 약 75ms 만에, 모바일 에지 장치에서는 약 7초 분량을 생성하는, 현재까지 가장 빠른 텍스트 음성 변환 모델을 구축했습니다.
시사점, 한계점
•
시사점:
◦
텍스트 음성 변환 모델의 추론 속도를 획기적으로 향상시키는 새로운 적대적 후처리 기법(ARC)을 제시했습니다.
◦
증류 기반 방식에 비해 효율적인 가속화 방법을 제시하여, 연산 비용을 절감할 수 있습니다.
◦
모바일 에지 장치에서도 실시간 텍스트 음성 변환이 가능하도록 성능을 향상시켰습니다.
◦
빠른 추론 속도로 인해 실시간 응용 분야 및 창의적인 애플리케이션에 대한 활용 가능성을 높였습니다.
•
한계점:
◦
ARC 후처리의 성능 향상이 특정 모델(Stable Audio Open)에 국한될 가능성이 있습니다. 다른 모델에 적용했을 때의 일반화 성능은 추가적인 연구가 필요합니다.
◦
본 논문에서 제시된 속도 향상은 특정 하드웨어(H100, 모바일 에지 장치) 환경에서 측정된 결과이므로, 다른 하드웨어에서의 성능은 다를 수 있습니다.
◦
음질 저하에 대한 정량적 분석이 부족합니다. 속도 향상과 음질 저하 사이의 절충점에 대한 추가적인 연구가 필요합니다.