본 논문은 제한된 양의 정렬된 오디오-텍스트 데이터로 인해 정확한 시간 제어(예: "올빼미가 2.4초5.2초에 울었다")를 포함하는 복잡한 텍스트 프롬프트를 처리하는 데 어려움을 겪는 기존의 텍스트 음성 변환(T2A) 방법의 한계를 해결하기 위해 제안되었다. 기존 연구는 데이터 증강 기법이나 시간 조건을 모델 입력으로 사용하여 시간 조건이 포함된 10초 길이의 T2A 생성을 시도했지만, 합성 품질이 여전히 제한적이었다. 이에 본 논문에서는 훈련이 필요 없는 새로운 시간 제어 T2A 프레임워크인 FreeAudio를 제안하여, "올빼미가 2.4초5.2초에 울었고, 귀뚜라미가 0초~24초에 울었다" 와 같이 시간 제어가 가능한 장시간 T2A 생성을 최초로 시도하였다. FreeAudio는 LLM을 사용하여 겹치지 않는 시간 창을 계획하고, 입력 텍스트와 시간 프롬프트를 기반으로 각 시간 창에 대해 개선된 자연어 설명을 다시 생성한다. 또한, 정확한 시간 제어를 위한 분리 및 집계 주의 제어(Decoupling and Aggregating Attention Control), 국소적 부드러움을 위한 문맥적 잠재 구성(Contextual Latent Composition), 그리고 전역적 일관성을 위한 참조 안내(Reference Guidance)를 도입하였다. 실험 결과, FreeAudio는 훈련이 필요 없는 방법들 중 최첨단의 시간 조건 T2A 합성 품질을 달성하였으며, 훈련 기반 방법들과 비교 가능한 수준임을 보여주었다. 또한, 훈련 기반 Stable Audio와 비교 가능한 장시간 생성 품질을 보이며, 시간 제어가 가능한 장시간 T2A 합성의 길을 열었다.