Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MambAttention : Mamba avec attention multi-têtes pour une amélioration généralisable de la parole monocanal

Created by
  • Haebom

Auteur

Nikolai Lund Kuhne, Jesper Jensen, Jan {\O}stergaard, Zheng-Hua Tan

Contour

Cet article s'appuie sur des études antérieures montrant que de nouveaux modèles de séquences tels que Mamba et xLSTM atteignent des performances comparables, voire supérieures, à celles des modèles de pointe en matière d'amélioration de la parole monocanal, de reconnaissance vocale automatique et d'apprentissage auto-supervisé de représentations audio. Cependant, nous soulignons que ces modèles ont tendance à se suradapter. Pour remédier à ce problème, nous proposons une nouvelle architecture hybride, MambAttention, qui combine Mamba avec un module d'attention multi-têtes temps-fréquence. Nous entraînons le modèle sur le jeu de données VoiceBank+Demand Extended (VB-DemandEx), qui présente des types de bruit plus complexes et un faible rapport signal/bruit. Nous démontrons expérimentalement qu'il surpasse significativement les systèmes de pointe basés sur LSTM, xLSTM, Mamba et Conformer sur des jeux de données sans domaine tels que DNS-2020 et EARS-WHAM_v2. De plus, nous démontrons, par des études d'ablation, que le partage du poids du module d'attention multi-têtes temps-fréquence joue un rôle important dans les performances de généralisation. Enfin, nous menons des expériences intégrant un module d'attention multi-têtes temps-fréquence partagé dans LSTM et xLSTM pour démontrer les améliorations de performances sur les ensembles de données hors domaine, tandis que le modèle MambAttention maintient des performances supérieures sur toutes les mesures d'évaluation.

Takeaways, Limitations

Takeaways:
Le modèle MambAttention combinant Mamba et le module d'attention multi-têtes temps-fréquence montre d'excellentes performances de généralisation dans l'amélioration de la parole à canal unique.
Le partage du poids dans les modules d'attention multi-têtes temps-fréquence joue un rôle important dans l'amélioration des performances de généralisation.
Des améliorations de performances peuvent être obtenues en intégrant des modules d'attention multi-têtes temps-fréquence dans LSTM et xLSTM.
L'ensemble de données VB-DemandEx contenant des environnements bruyants difficiles est présenté.
Limitations:
L’amélioration des performances du modèle MambAttention proposé peut être limitée à certains ensembles de données.
La généralisation des performances à d’autres types de problèmes d’amélioration de la voix ou à des scénarios plus complexes nécessite une étude plus approfondie.
Manque de description détaillée de la structure et de la convivialité générale de l'ensemble de données VB-DemandEx.
👍