Este artículo presenta un novedoso modelo de separación de fuentes especializado en la separación precisa de voces. Para superar la dificultad de los modelos existentes basados en Transformers para capturar voces intermitentes, utilizamos Mamba2, un modelo de espacio de estados de vanguardia que captura mejor las dependencias temporales a largo plazo. Para procesar eficientemente secuencias de entrada largas, combinamos una estrategia de división de banda con una arquitectura de doble ruta. Los resultados experimentales demuestran que el modelo propuesto supera a los modelos de vanguardia actuales, alcanzando una cSDR (la mejor de su clase) de 11,03 dB y demostrando mejoras significativas en el rendimiento incluso con uSDR. Además, demuestra un rendimiento estable y consistente en un amplio rango de longitudes de entrada y patrones de ocurrencia vocal. Estos resultados demuestran la eficacia del modelo basado en Mamba para el procesamiento de audio de alta resolución y sugieren nuevas direcciones para aplicaciones más amplias en la investigación de audio.