Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FreeAudio: Training-Free Timing Planning for Controllable Long-Form Text-to-Audio Generation

Created by
  • Haebom

저자

Yuxuan Jiang, Zehua Chen, Zeqian Ju, Chang Li, Weibei Dou, Jun Zhu

개요

본 논문은 제한된 양의 정렬된 오디오-텍스트 데이터로 인해 정확한 시간 제어(예: "올빼미가 2.4초5.2초에 울었다")를 포함하는 복잡한 텍스트 프롬프트를 처리하는 데 어려움을 겪는 기존의 텍스트 음성 변환(T2A) 방법의 한계를 해결하기 위해 제안되었다. 기존 연구는 데이터 증강 기법이나 시간 조건을 모델 입력으로 사용하여 시간 조건이 포함된 10초 길이의 T2A 생성을 시도했지만, 합성 품질이 여전히 제한적이었다. 이에 본 논문에서는 훈련이 필요 없는 새로운 시간 제어 T2A 프레임워크인 FreeAudio를 제안하여, "올빼미가 2.4초5.2초에 울었고, 귀뚜라미가 0초~24초에 울었다" 와 같이 시간 제어가 가능한 장시간 T2A 생성을 최초로 시도하였다. FreeAudio는 LLM을 사용하여 겹치지 않는 시간 창을 계획하고, 입력 텍스트와 시간 프롬프트를 기반으로 각 시간 창에 대해 개선된 자연어 설명을 다시 생성한다. 또한, 정확한 시간 제어를 위한 분리 및 집계 주의 제어(Decoupling and Aggregating Attention Control), 국소적 부드러움을 위한 문맥적 잠재 구성(Contextual Latent Composition), 그리고 전역적 일관성을 위한 참조 안내(Reference Guidance)를 도입하였다. 실험 결과, FreeAudio는 훈련이 필요 없는 방법들 중 최첨단의 시간 조건 T2A 합성 품질을 달성하였으며, 훈련 기반 방법들과 비교 가능한 수준임을 보여주었다. 또한, 훈련 기반 Stable Audio와 비교 가능한 장시간 생성 품질을 보이며, 시간 제어가 가능한 장시간 T2A 합성의 길을 열었다.

시사점, 한계점

시사점:
훈련이 필요 없는 시간 제어 T2A 프레임워크인 FreeAudio를 최초로 제안하였다.
기존 훈련 기반 방법들과 비교 가능한 수준의 시간 제어 및 장시간 T2A 생성 품질을 달성하였다.
시간 제어가 가능한 장시간 T2A 합성을 위한 새로운 가능성을 제시하였다.
한계점:
LLM에 대한 의존도가 높아, LLM의 성능에 따라 FreeAudio의 성능이 영향을 받을 수 있다.
장시간 생성의 경우, 합성 품질 저하 또는 시간 정확도 저하가 발생할 가능성이 있다.
다양한 음향 효과나 복잡한 음성 특징을 정확하게 반영하는 데에는 추가적인 연구가 필요할 수 있다.
👍