Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FreeAudio: Training-Free Timing Planning for Controllable Long-Form Text-to-Audio Generation

Created by
  • Haebom

저자

Yuxuan Jiang, Zehua Chen, Zeqian Ju, Chang Li, Weibei Dou, Jun Zhu

개요

본 논문은 제한된 양의 정렬된 오디오-텍스트 데이터로 인해 정확한 시간 제어(예: "owl hooted at 2.4s-5.2s")를 포함하는 복잡한 텍스트 프롬프트 처리에 어려움을 겪는 기존 텍스트-오디오(T2A) 생성 방법의 한계를 해결하고자 제안되었다. 기존 연구들이 데이터 증강이나 시간 조건을 모델 입력으로 사용하여 10초 길이의 시간 제어 T2A 생성을 시도했지만, 합성 품질이 여전히 제한적이었다. 이에 본 논문에서는 훈련이 필요 없는 새로운 시간 제어 T2A 프레임워크인 FreeAudio를 제시하여, "owl hooted at 2.4s-5.2s and crickets chirping at 0s-24s" 와 같이 시간 제어가 가능한 장시간 T2A 생성을 최초로 시도하였다. FreeAudio는 LLM을 이용하여 중복되지 않는 시간 창을 계획하고 입력 텍스트와 시간 프롬프트를 기반으로 각 창을 개선된 자연어 설명으로 재캡션한다. 또한 정확한 시간 제어를 위한 분리 및 집계 주의 제어, 국소적 부드러움을 위한 문맥적 잠재 구성, 그리고 전역적 일관성을 위한 참조 안내를 도입하였다. 실험 결과, FreeAudio는 훈련이 필요 없는 방법 중 최첨단 시간 제어 T2A 합성 품질을 달성했으며, 훈련 기반 방법과도 비슷한 성능을 보였다. 또한, 훈련 기반 Stable Audio와 비교할 만한 장시간 생성 품질을 보여주며, 시간 제어가 가능한 장시간 T2A 합성의 길을 열었다.

시사점, 한계점

시사점:
훈련 없이도 고품질의 시간 제어 T2A 생성을 가능하게 하는 새로운 프레임워크 FreeAudio 제시.
기존 훈련 기반 방법들과 비교 가능한 수준의 장시간 T2A 생성 품질 달성.
정확한 시간 제어를 위한 효과적인 방법(분리 및 집계 주의 제어, 문맥적 잠재 구성, 참조 안내) 제시.
시간 제어가 가능한 장시간 T2A 합성 분야의 발전에 기여.
한계점:
LLM의 성능에 의존적일 수 있음. LLM의 성능 저하가 FreeAudio의 성능에 영향을 미칠 수 있다.
매우 긴 오디오 생성에 대한 성능 평가가 부족할 수 있음. 논문에서 언급된 24초는 상대적으로 짧은 시간일 수 있다.
다양한 음향 효과나 복잡한 음성 특징을 포함하는 텍스트에 대한 성능 평가가 더 필요할 수 있음.
👍