본 논문은 실시간 대화형 애플리케이션을 위해 저지연, 종단간 음성-음성 통신 모델을 실험하고 최적화하는 연구를 수행한다. 자동 음성 인식(ASR), 텍스트 음성 변환(TTS), 대화 관리를 포함하는 음성-음성(V-2-V) 시스템의 필수 구성 요소를 분석하여 고품질 상호 작용을 유지하면서 처리 시간을 줄이는 방법을 분석하고 최적화를 위한 요소를 식별한다. 특히 자연스러운 일시 정지 및 감정을 포함하는 생생한 음성을 생성하는 TTS 구성 요소가 Real Time Factor(RTF)에 가장 큰 영향을 미친다는 것을 발견했다. CSM1b를 활용하는 V-2-V 아키텍처는 이전 대화의 오디오와 텍스트를 모두 사용하여 대화의 톤과 맥락을 이해하고 문맥에 맞는 음성을 생성한다. 또한, TTS 디코더의 Residual Vector Quantization (RVQ) 반복 최적화를 탐구했지만 음성 품질 저하를 초래했다. 실험 결과, CSM 기반 V-2-V 구현에서 Mimi에서 사용되는 RVQ 반복 횟수와 코드북 수를 줄이는 것이 가장 중요한 최적화임을 보여주었다.