每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

结合 Mamba 进行语音增强的调查

Created by
  • Haebom

作者

赵荣、程文晃、Moreno La Quatra、Sabato Marco Siniscalchi、Chao-Han Huck Yang、Szu-Wei Fu、Yu Tsao

SEMamba:使用 Mamba 增强语音

大纲

本研究旨在利用 Mamba(一种近期提出的、不包含注意力机制的可扩展状态空间模型 (SSM))完成语音增强 (SE) 任务。具体而言,我们使用 Mamba 部署了各种基于回归的 SE 模型 (SEMamba),包括基础、高级、因果和非因果配置。此外,我们考虑了基于信号级距离或度量方向的损失函数。实验结果表明,SEMamba 在高级非因果配置下,在 VoiceBank-DEMAND 数据集上取得了 3.55 的 PESQ 得分,并获得了极具竞争力的成绩。此外,当 SEMamba 与感知对比度拉伸 (PCS) 结合使用时,报告了 3.69 的破纪录 PESQ 得分。与基于变换的 SE 解决方案相比,在高级非因果配置下,FLOP 减少了高达约 12%。最后,SEMamba 可用作自动语音识别 (ASR) 之前的预处理步骤,与近期的 SE 解决方案相比,其性能更具竞争力。

Takeaways, Limitations

提出使用 Mamba 的语音增强模型(SEMamba)并在各种配置上进行实验。
在 VoiceBank-DEMAND 数据集上获得了具有竞争力的 PESQ 分数(3.55)。
与 PCS 结合,实现 SOTA PESQ (3.69)
与基于转换的模型相比,FLOP 减少(高达约 12%)
介绍将其用作 ASR 预处理步骤的可能性。
论文中没有直接提到具体的Limitations(需要通过未来的研究进行补充)
👍