Cet article présente un nouveau modèle de séparation de sources spécialisé dans la séparation vocale précise. Pour surmonter la difficulté des modèles basés sur Transformer existants à capturer les voix intermittentes, nous utilisons Mamba2, un modèle d'espace d'état de pointe qui capture mieux les dépendances temporelles à long terme. Pour traiter efficacement les longues séquences d'entrée, nous combinons une stratégie de séparation de bande avec une architecture à double chemin. Les résultats expérimentaux démontrent que le modèle proposé surpasse les modèles de pointe actuels, atteignant un cSDR (meilleur de sa catégorie) de 11,03 dB et démontrant des améliorations significatives des performances, même à uSDR. De plus, il affiche des performances stables et constantes sur une large gamme de longueurs d'entrée et de schémas d'occurrence vocale. Ces résultats démontrent l'efficacité du modèle basé sur Mamba pour le traitement audio haute résolution et ouvrent de nouvelles perspectives pour des applications plus larges en recherche audio.