Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VocalNet-M2: Advancing Low-Latency Spoken Language Modeling via Integrated Multi-Codebook Tokenization and Multi-Token Prediction

Created by
  • Haebom
Category
Empty

저자

Yuhao Wang, Ziyang Cheng, Heyang Liu, Ronghua Wu, Qunshan Gu, Yanfeng Wang, Yu Wang

개요

VocalNet-M2는 응답 지연 문제를 해결하기 위해 multi-codebook 토크나이저와 multi-token prediction (MTP) 전략을 통합한 새로운 low-latency SLM (Spoken Language Model)이다. Flow-matching 모델을 사용하지 않고, multi-codebook speech token을 직접 생성하여 응답 지연을 줄인다. MTP 전략은 생성 효율성을 높이고 성능을 향상시킨다. 실험 결과, first chunk latency를 725ms에서 350ms로 대폭 감소시키면서도, 기존 SLM과 유사한 성능을 보였다.

시사점, 한계점

시사점:
multi-codebook 토크나이저와 MTP 전략을 통해 SLM의 응답 지연 문제를 해결했다.
실시간 대화형 애플리케이션에 적합한 효율적이고 고성능 SLM 개발에 기여한다.
단일 코드북 및 다중 코드북 전략에 대한 포괄적인 비교를 제공한다.
한계점:
논문에서 구체적인 성능 향상 수치나 trade-off에 대한 추가적인 분석이 필요할 수 있다.
실험 환경 및 데이터셋에 대한 자세한 정보가 필요하다.
다양한 언어 및 도메인에 대한 일반화 가능성에 대한 검증이 필요하다.
👍