본 논문에서는 기억력 있는 다중 화자 임베딩과 시퀀스-투-시퀀스 구조를 통합한 새로운 신경망 기반 화자 분리 시스템인 NSD-MS2S를 제안합니다. NSD-MS2S는 기억 모듈을 활용하여 화자 임베딩을 향상시키고, Seq2Seq 프레임워크를 사용하여 음향 특징을 화자 레이블로 효율적으로 매핑합니다. 또한, 전문가 혼합(MoE)을 화자 분리에 적용하여 모델 편향을 완화하고 성능을 향상시키는 공유 및 소프트 전문가 혼합(SS-MoE) 모듈을 도입합니다. SS-MoE를 통합한 확장 모델인 NSD-MS2S-SSMoE도 제시합니다. CHiME-6, DiPCo, Mixer 6, DIHARD-III 평가 세트를 포함한 여러 복잡한 음향 데이터 세트에 대한 실험 결과, 강건성과 일반화 성능이 향상됨을 보여줍니다. 제안된 방법은 최첨단 결과를 달성하여 실제 환경의 어려운 시나리오에서의 효과를 보여줍니다.