每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

TokenChain:通过语义令牌建模的离散语音链

Created by
  • Haebom

作者

王明轩、中村聪

大纲

我们提出了 TokenChain,它通过模仿机器语音链 (Machine Speech Chain) 来共同改进 ASR 和 TTS。TokenChain 是一个完全离散的语音链,它将基于语义 token 的 ASR 与两阶段 TTS(一个与 ASR 共同训练的自回归文本到语义模型,以及一个用于合成的掩蔽生成语义到声学模型)相结合。端到端反馈通过直通式 argmax/Gumbel-Softmax 实现,并通过动态加权平均与监督 ASR 进行平衡。消融研究 (Ablation) 探讨了域内和跨域传输的最佳温度方案。

Takeaways,Limitations

TokenChain 在 LibriSpeech 上实现基线准确度的速度提高了 2-6 个 epoch,在相同 epoch 下错误率降低了 5-13%,并表现出稳定的 T2S 性能。
TokenChain 在 TED-LIUM 中表现出最小的遗忘现象,将相对 ASR WER 降低了 56%,将 T2S WER 降低了 31%。
链式学习在代币接口和模型中也被证明是有效的。
未提供该论文的具体Limitations。
👍