본 논문은 음성 신호와 대규모 언어 모델 간의 연결고리 역할을 하는 음성 코덱의 한계를 분석하고, 의미 정보와 음향 정보를 모두 고려하는 새로운 코덱인 XY-Tokenizer를 제안합니다. XY-Tokenizer는 다단계 다중 작업 학습을 통해 의미적 능력과 음향적 능력 간의 상충 관계를 완화합니다. 실험 결과, XY-Tokenizer는 유사한 비트 전송률에서 동작하는 최첨단 코덱들과 비교하여 의미 및 음향 작업 모두에서 비슷한 성능을 달성합니다. 특히, SpeechTokenizer 및 Mimi와 같은 증류 기반 의미 모델링 방법을 능가하는 강력한 텍스트 정렬을 달성하면서 재구성된 오디오와 원본 오디오 간의 화자 유사도 점수 0.83을 유지합니다. 재구성 성능은 음향 전용 코덱 중 최첨단인 BigCodec과 비슷한 수준(화자 유사도 점수 0.84)을 달성합니다. 코드와 모델은 https://github.com/gyt1145028706/XY-Tokenizer 에서 이용 가능합니다.