본 논문은 기존의 대규모 음성 언어 모델이 의미 토큰과 음향 토큰으로 분리되어 처리되는 한계를 지적하며, 언어적 및 비언어적 정보를 모두 포함하는 통합된 토큰인 UniCodec을 제안합니다. UniCodec은 자기 지도 학습 특징을 활용한 저비트레이트 신경 코덱을 통해 글로벌 및 로컬 스케일에서 분리된 이산 표현을 학습합니다. 이를 통해 비언어적 속성을 잘 보존하면서 자연스럽고 표현력이 풍부하며 장기간 일관성 있는 고품질 출력을 생성하는 데 효과적임을 다국어 데이터셋을 통한 실험으로 보여줍니다. 기존의 의미 토큰 기반 모델이 비언어적 속성을 놓치고 프롬프트 기반 음성 합성에서 로버스트니스 문제를 겪는 것과 달리, UniCodec은 이러한 문제점을 해결합니다.