每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

评估 Wav2Vec 2.0、XLS-R 和 Whisper 中的 Transformer 层在说话人识别任务中的有效性

Created by
  • Haebom

作者

莱纳斯·斯图尔曼、迈克尔·亚历山大·萨克瑟

大纲

本研究评估了三种先进的语音编码器模型——Wav2Vec 2.0、XLS-R 和 Whisper——在说话人识别任务中的表现。我们对这些模型进行了微调,并使用 SVCCA、k-means 聚类和 t-SNE 可视化分析了它们的逐层表示。我们发现,Wav2Vec 2.0 和 XLS-R 在较早的层级中有效地捕捉了说话人特有的特征,并且微调可以提高稳定性和性能。Whisper 在较深的层级中表现更佳。我们还确定了在针对说话人识别任务进行微调时,每个模型的最佳 Transformer 层数。

Takeaways,Limitations

Wav2Vec 2.0 和 XLS-R 有效地捕捉了早期层中说话者特定的特征。
微调提高了模型的稳定性和性能。
Whisper 在更深的层面上表现更好。
确定每个模型中用于说话人识别的最佳变换器层数。
👍