每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

I-LAVA:面向座席的低延迟语音对语音架构洞察

Created by
  • Haebom

作者

阿努潘·普瓦尔、阿迪亚·乔杜里

大纲

本文针对实时对话应用,对一个低延迟、端到端的语音转语音通信模型进行了实验和优化。通过分析语音转语音 (V-2-V) 系统的关键组件,包括自动语音识别 (ASR)、文本转语音 (TTS) 和对话管理,我们找到了一些优化策略,以在保持高质量交互的同时减少处理时间。具体而言,我们发现 TTS 组件对实时性 (RTF) 的影响最大,因为它能够生成具有自然停顿和情感的逼真语音。V-2-V 架构利用 CSM1b,利用先前对话中的音频和文本来理解对话的语气和上下文,并生成上下文相关的语音。此外,我们还探索了 TTS 解码器中残差矢量量化 (RVQ) 迭代的优化,但这些优化导致语音质量不佳。实验结果表明,减少 RVQ 迭代次数和 Mimi 中使用的码本数量是基于 CSM 的 V-2-V 实现中最重要的优化。

Takeaways, Limitations

我们发现 TTS 组件对 RTF 的影响最大。
证明基于 CSM1b 的 V-2-V 架构可以理解上下文并生成适当的语音。
减少 RVQ 重复次数会以牺牲语音质量为代价。
我们确认减少 RVQ 迭代次数和码本数量是基于 CSM 的 V-2-V 实现中的重要优化因素。
👍