본 논문은 제한된 양의 정렬된 오디오-텍스트 데이터로 인해 정확한 시간 제어(예: "owl hooted at 2.4s-5.2s")를 포함하는 복잡한 텍스트 프롬프트 처리에 어려움을 겪는 기존 텍스트-오디오(T2A) 생성 방법의 한계를 해결하고자 제안되었다. 기존 연구들이 데이터 증강이나 시간 조건을 모델 입력으로 사용하여 10초 길이의 시간 제어 T2A 생성을 시도했지만, 합성 품질이 여전히 제한적이었다. 이에 본 논문에서는 훈련이 필요 없는 새로운 시간 제어 T2A 프레임워크인 FreeAudio를 제시하여, "owl hooted at 2.4s-5.2s and crickets chirping at 0s-24s" 와 같이 시간 제어가 가능한 장시간 T2A 생성을 최초로 시도하였다. FreeAudio는 LLM을 이용하여 중복되지 않는 시간 창을 계획하고 입력 텍스트와 시간 프롬프트를 기반으로 각 창을 개선된 자연어 설명으로 재캡션한다. 또한 정확한 시간 제어를 위한 분리 및 집계 주의 제어, 국소적 부드러움을 위한 문맥적 잠재 구성, 그리고 전역적 일관성을 위한 참조 안내를 도입하였다. 실험 결과, FreeAudio는 훈련이 필요 없는 방법 중 최첨단 시간 제어 T2A 합성 품질을 달성했으며, 훈련 기반 방법과도 비슷한 성능을 보였다. 또한, 훈련 기반 Stable Audio와 비교할 만한 장시간 생성 품질을 보여주며, 시간 제어가 가능한 장시간 T2A 합성의 길을 열었다.