每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

潜在语音文本转换器

Created by
  • Haebom

作者

卢延珠、Yashesh Gaur、周伟、本杰明·穆勒、Jesus Villalba、Najim Dehak、Luke Zettlemoyer、Gargi Ghosh、Mike Lewis、Srinivasan Iyer、Duc Le

潜在语音文本转换器 (LST)

大纲

本文提出了潜在语音文本转换器 (LST),以提高自回归语音转文本模型的数据效率。LST 动态地将语音标记聚合到潜在语音块中,从而改善文本和语音表征的对齐,并提升计算效率。该方法在语音转语音和文本转文本基准测试中均优于现有方法,在数据和计算资源受限的环境下展现出卓越的效果。

Takeaways, Limitations

Takeaways:
LST 提高了语音到文本模型的数据效率。
通过解决计算不平衡问题实现更快的扩展。
显示语音到语音和文本到文本基准测试中的性能改进。
显著提高 HellaSwag 的性能。
通过公开模型、代码和评估数据来为研究做出贡献。
Limitations:
论文中没有提到具体的Limitations。
👍