Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

i-LAVA: Insights on Low Latency Voice-2-Voice Architecture for Agents

Created by
  • Haebom

저자

Anupam Purwar, Aditya Choudhary

개요

본 논문은 실시간 대화형 애플리케이션을 위해 저지연, 종단간 음성-음성 통신 모델을 실험하고 최적화하는 연구를 수행한다. 자동 음성 인식(ASR), 텍스트 음성 변환(TTS), 대화 관리를 포함하는 음성-음성(V-2-V) 시스템의 필수 구성 요소를 분석하여 고품질 상호 작용을 유지하면서 처리 시간을 줄이는 방법을 분석하고 최적화를 위한 요소를 식별한다. 특히 자연스러운 일시 정지 및 감정을 포함하는 생생한 음성을 생성하는 TTS 구성 요소가 Real Time Factor(RTF)에 가장 큰 영향을 미친다는 것을 발견했다. CSM1b를 활용하는 V-2-V 아키텍처는 이전 대화의 오디오와 텍스트를 모두 사용하여 대화의 톤과 맥락을 이해하고 문맥에 맞는 음성을 생성한다. 또한, TTS 디코더의 Residual Vector Quantization (RVQ) 반복 최적화를 탐구했지만 음성 품질 저하를 초래했다. 실험 결과, CSM 기반 V-2-V 구현에서 Mimi에서 사용되는 RVQ 반복 횟수와 코드북 수를 줄이는 것이 가장 중요한 최적화임을 보여주었다.

시사점, 한계점

TTS 구성 요소가 RTF에 가장 큰 영향을 미침을 확인.
CSM1b 기반 V-2-V 아키텍처가 맥락을 이해하고 적절한 음성을 생성할 수 있음을 입증.
RVQ 반복 횟수 감소가 음성 품질을 희생하면서 이루어짐.
CSM 기반 V-2-V 구현에서 RVQ 반복 횟수 및 코드북 수를 줄이는 것이 중요한 최적화 요소임을 확인.
👍