본 논문은 대규모 언어 모델(LLM) 기반 Text-to-Speech(TTS) 시스템에서 사용되는 다중 코드북 중립 오디오 코덱(RVQ, GVQ 등)의 한계를 극복하기 위해 DistilCodec과 UniTTS를 제안합니다. DistilCodec은 다중 코드북 오디오 코덱을 32,768개 코드의 단일 코드북 코덱으로 증류하여 거의 100%의 활용률을 달성합니다. 의미 정렬 방식을 사용하지 않아 다양한 고품질 비표현 데이터를 활용할 수 있으며, UniTTS는 DistilCodec의 포괄적인 오디오 정보 모델링을 활용하여 오디오, 텍스트, 음성-텍스트 간의 자기회귀 및 교차 모달 자기회귀를 통합한 사전 학습 프레임워크를 통해 텍스트와 음성/오디오 프롬프트를 모두 처리할 수 있습니다. UniTTS는 사전 학습, 지도 미세 조정, 정렬의 세 단계 학습 과정을 거칩니다. 소스 코드와 모델 체크포인트는 공개적으로 제공됩니다.