每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

FuseCodec:神经编解码器的语义上下文融合与监督

Created by
  • Haebom

作者

Md Mubtasim Ahasan、Rafat Hasan Khan、Tasnim Mohiuddin、Aman Chadha、Tariq Iqbal、M Ashraful Amin、Amin Ahsan Ali、Md Mofijul Islam、AKM Mahbubur Ra​​hman

大纲

FuseCodec 提出了一种新颖的语音标记化方法,该方法集成了声学、语义和上下文表征。现有的神经编解码器专注于捕捉低级声学特征,而 FuseCodec 通过融合语义和上下文线索来提升口语语言建模的性能。这通过三种核心技术实现:潜在表征融合、全局语义-上下文监督和时间对齐上下文监督。FuseCodec-TTS 展示了其在零样本语音合成中的适用性,在 LibriSpeech 数据集上的表现优于现有模型。

Takeaways, Limitations

Takeaways:
我们通过有效地整合声学、语义和上下文表示来提高语音标记化的性能。
我们证明了它在零样本语音合成中的适用性,展示了其广泛的潜力。
我们通过在 LibriSpeech 数据集上取得的优异表现证明了我们方法的有效性。
我们通过公开代码和预训练模型来提高研究的可重复性。
Limitations:
关于具体模型结构和参数设置的详细信息可能缺乏。
对其他数据集和任务的泛化性能需要进一步研究。
没有提到计算成本和训练时间。
👍