本文针对实时对话应用,对一个低延迟、端到端的语音转语音通信模型进行了实验和优化。通过分析语音转语音 (V-2-V) 系统的关键组件,包括自动语音识别 (ASR)、文本转语音 (TTS) 和对话管理,我们找到了一些优化策略,以在保持高质量交互的同时减少处理时间。具体而言,我们发现 TTS 组件对实时性 (RTF) 的影响最大,因为它能够生成具有自然停顿和情感的逼真语音。V-2-V 架构利用 CSM1b,利用先前对话中的音频和文本来理解对话的语气和上下文,并生成上下文相关的语音。此外,我们还探索了 TTS 解码器中残差矢量量化 (RVQ) 迭代的优化,但这些优化导致语音质量不佳。实验结果表明,减少 RVQ 迭代次数和 Mimi 中使用的码本数量是基于 CSM 的 V-2-V 实现中最重要的优化。