본 논문은 연속적인 오디오 데이터를 저비트레이트(0.23kpbs)의 이산 토큰으로 변환하여 대규모 언어 모델(LLM)에 통합하는 새로운 방법을 제시합니다. 이는 변분 양자화(Variational Quantization)와 조건부 흐름 매칭(Conditional Flow Matching)을 결합하여 이루어집니다. 미리 훈련된 텍스트 기반 LLM을 저랭크 적응(LoRA)을 사용하여 미세 조정하여 오디오 이해 및 생성 능력을 평가했습니다. 제안된 토크나이저는 다양한 음향 이벤트를 포함하는 여러 데이터셋에서 기존 VQ-VAE보다 우수한 성능을 보였습니다. 오디오 토크나이징 과정에서 세부 정보 손실이 발생했음에도 불구하고, 이산 토큰으로 훈련된 다중 모달 LLM은 오디오 이해 측면에서 최첨단 방법과 경쟁력 있는 결과를 달성했지만, 오디오 생성 성능은 저조했습니다.