Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ControlAudio: Tackling Text-Guided, Timing-Indicated and Intelligible Audio Generation via Progressive Diffusion Modeling

Created by
  • Haebom

저자

Yuxuan Jiang, Zehua Chen, Zeqian Ju, Yusheng Dai, Weibei Dou, Jun Zhu

개요

본 연구는 세밀한 제어 신호(정확한 타이밍 제어 또는 명확한 음성 내용 등)를 활용한 텍스트-오디오(TTA) 생성을 대규모로 수행하기 위해, 제어 가능한 TTA 생성을 다중 작업 학습 문제로 재구성하고, 단계적 확산 모델링 접근 방식인 ControlAudio를 소개합니다. ControlAudio는 텍스트, 타이밍 및 음소 특징을 포함한 더 세밀한 정보에 따라 분포를 적절하게 맞추기 위해 제안되었습니다. 이 방법은 주석 및 시뮬레이션을 모두 포함하는 데이터 구성, 대규모 텍스트-오디오 쌍에 대한 사전 훈련된 확산 변환기(DiT) 사용, 타이밍 및 음소 특징의 점진적 통합, 단계적 안내 생성을 포함합니다. ControlAudio는 시간 정확도 및 음성 명료도 측면에서 최첨단 성능을 달성하며, 객관적 및 주관적 평가에서 기존 방법을 능가합니다.

시사점, 한계점

시사점:
세밀한 제어 신호를 사용하여 텍스트-오디오 생성을 효과적으로 수행합니다.
확산 모델링과 다중 작업 학습을 결합하여 성능을 향상시켰습니다.
데이터 부족 문제를 해결하기 위해 데이터 주석 및 시뮬레이션을 활용하는 데이터 구축 방법을 제안합니다.
시간 정확도 및 음성 명료도에서 기존 방법보다 우수한 성능을 보입니다.
한계점:
해당 논문에서 한계점에 대한 명시적인 언급은 없습니다.
👍