본 논문은 대규모 언어 모델의 성공을 바탕으로 음성 모델링에 적용하는 연구에 대해 다룹니다. 기존의 자기지도 학습 모델 기반 음성 토큰화는 언어적 측면에 치중하여, 자연스러움이 떨어지는 음성 생성 문제를 야기합니다. 이를 해결하기 위해 기존 연구들은 음높이 정보를 추가하는 방법을 사용하지만, 이는 제한적입니다. 따라서 본 논문은 연속적인 음성 속성을 자동으로 인코딩하여 의미 토큰을 향상시키는 종단 간 변분적 접근법을 제시합니다. 수동적인 특징 추출 및 선택 과정을 제거하고, 사람 평가자에 따른 선호도가 높은 음성 연속을 생성합니다. 코드, 샘플 및 모델은 GitHub에서 공개합니다.