VocalNet-M2는 응답 지연 문제를 해결하기 위해 multi-codebook 토크나이저와 multi-token prediction (MTP) 전략을 통합한 새로운 low-latency SLM (Spoken Language Model)이다. Flow-matching 모델을 사용하지 않고, multi-codebook speech token을 직접 생성하여 응답 지연을 줄인다. MTP 전략은 생성 효율성을 높이고 성능을 향상시킨다. 실험 결과, first chunk latency를 725ms에서 350ms로 대폭 감소시키면서도, 기존 SLM과 유사한 성능을 보였다.
시사점, 한계점
•
시사점:
◦
multi-codebook 토크나이저와 MTP 전략을 통해 SLM의 응답 지연 문제를 해결했다.
◦
실시간 대화형 애플리케이션에 적합한 효율적이고 고성능 SLM 개발에 기여한다.
◦
단일 코드북 및 다중 코드북 전략에 대한 포괄적인 비교를 제공한다.
•
한계점:
◦
논문에서 구체적인 성능 향상 수치나 trade-off에 대한 추가적인 분석이 필요할 수 있다.