VocalNet-1B와 VocalNet-8B는 실시간 음성 상호작용을 위한 확장 가능하고 모델과 무관한 훈련 프레임워크를 통해 구현된 고성능, 저지연 음성 거대 언어 모델(LLM)입니다. 기존의 다음 토큰 예측(NTP) 방식에서 벗어나, 생성 속도와 품질을 동시에 향상시키는 음성 LLM에 최적화된 새로운 다중 토큰 예측(MTP) 방식을 제시합니다. 실험 결과, VocalNet은 훨씬 적은 훈련 데이터를 사용함에도 불구하고 주요 Omni LLM을 능가하며, 기존 오픈소스 음성 LLM을 상당한 차이로 앞섭니다. 모든 모델 가중치, 추론 코드, 훈련 데이터 및 프레임워크 구현은 공개될 예정입니다.