SonicSim이라는 합성 툴킷을 소개합니다. 이 툴킷은 임바디드 AI 시뮬레이션 플랫폼인 Habitat-sim을 기반으로 하며, 이동하는 음원에 대한 고도로 사용자 정의 가능한 데이터를 생성하도록 설계되었습니다. SonicSim을 활용하여 LibriSpeech, FSD50K, FMA, Matterport3D 데이터를 사용하여 SonicSet이라는 벤치마크 데이터셋을 구성했습니다. 실제 환경 데이터와의 차이점을 조사하기 위해 SonicSet 검증 세트에서 5시간 분량의 무반향 원시 데이터를 선택하고 실제 음성 분리 데이터셋을 녹음하여 SonicSet과 다른 합성 데이터셋을 비교하기 위한 기준을 제공했습니다. 실제 음성 향상을 위해 RealMAN 데이터셋을 사용하여 SonicSet과 기존 합성 데이터셋 간의 음향적 차이를 검증했습니다. 결과적으로 SonicSet으로 훈련된 모델이 다른 합성 데이터셋에 비해 실제 환경 시나리오에서 더 나은 일반화 성능을 보였습니다. 코드는 공개적으로 제공됩니다.