본 연구는 세밀한 제어 신호(정확한 타이밍 제어 또는 명확한 음성 내용 등)를 활용한 텍스트-오디오(TTA) 생성을 대규모로 수행하기 위해, 제어 가능한 TTA 생성을 다중 작업 학습 문제로 재구성하고, 단계적 확산 모델링 접근 방식인 ControlAudio를 소개합니다. ControlAudio는 텍스트, 타이밍 및 음소 특징을 포함한 더 세밀한 정보에 따라 분포를 적절하게 맞추기 위해 제안되었습니다. 이 방법은 주석 및 시뮬레이션을 모두 포함하는 데이터 구성, 대규모 텍스트-오디오 쌍에 대한 사전 훈련된 확산 변환기(DiT) 사용, 타이밍 및 음소 특징의 점진적 통합, 단계적 안내 생성을 포함합니다. ControlAudio는 시간 정확도 및 음성 명료도 측면에서 최첨단 성능을 달성하며, 객관적 및 주관적 평가에서 기존 방법을 능가합니다.