Cet article s'appuie sur des études antérieures montrant que de nouveaux modèles de séquences tels que Mamba et xLSTM atteignent des performances comparables, voire supérieures, à celles des modèles de pointe en matière d'amélioration de la parole monocanal, de reconnaissance vocale automatique et d'apprentissage auto-supervisé de représentations audio. Cependant, nous soulignons que ces modèles ont tendance à se suradapter. Pour remédier à ce problème, nous proposons une nouvelle architecture hybride, MambAttention, qui combine Mamba avec un module d'attention multi-têtes temps-fréquence. Nous entraînons le modèle sur le jeu de données VoiceBank+Demand Extended (VB-DemandEx), qui présente des types de bruit plus complexes et un faible rapport signal/bruit. Nous démontrons expérimentalement qu'il surpasse significativement les systèmes de pointe basés sur LSTM, xLSTM, Mamba et Conformer sur des jeux de données sans domaine tels que DNS-2020 et EARS-WHAM_v2. De plus, nous démontrons, par des études d'ablation, que le partage du poids du module d'attention multi-têtes temps-fréquence joue un rôle important dans les performances de généralisation. Enfin, nous menons des expériences intégrant un module d'attention multi-têtes temps-fréquence partagé dans LSTM et xLSTM pour démontrer les améliorations de performances sur les ensembles de données hors domaine, tandis que le modèle MambAttention maintient des performances supérieures sur toutes les mesures d'évaluation.