Bài báo này trình bày một mô hình tách nguồn mới chuyên biệt cho việc tách giọng nói chính xác. Để khắc phục khó khăn của các mô hình dựa trên Transformer hiện có trong việc thu âm giọng nói ngắt quãng, chúng tôi sử dụng Mamba2, một mô hình không gian trạng thái tiên tiến, có khả năng thu âm tốt hơn các phụ thuộc thời gian dài hạn. Để xử lý hiệu quả các chuỗi đầu vào dài, chúng tôi kết hợp chiến lược phân chia băng tần với kiến trúc đường dẫn kép. Kết quả thử nghiệm chứng minh rằng mô hình đề xuất vượt trội hơn các mô hình tiên tiến hiện tại, đạt cSDR (tốt nhất trong phân khúc) là 11,03 dB và thể hiện sự cải thiện hiệu suất đáng kể ngay cả ở uSDR. Hơn nữa, nó thể hiện hiệu suất ổn định và nhất quán trên nhiều độ dài đầu vào và các kiểu xuất hiện giọng nói khác nhau. Những kết quả này chứng minh tính hiệu quả của mô hình dựa trên Mamba đối với xử lý âm thanh độ phân giải cao và gợi ý những hướng đi mới cho các ứng dụng rộng rãi hơn trong nghiên cứu âm thanh.