Sign In

SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios

Created by
  • Haebom
Category
Empty

저자

Kai Li, Wendi Sang, Chang Zeng, Runxuan Yang, Guo Chen, Xiaolin Hu

개요

SonicSim이라는 합성 툴킷을 소개합니다. 이 툴킷은 임바디드 AI 시뮬레이션 플랫폼인 Habitat-sim을 기반으로 하며, 이동하는 음원에 대한 고도로 사용자 정의 가능한 데이터를 생성하도록 설계되었습니다. SonicSim을 활용하여 LibriSpeech, FSD50K, FMA, Matterport3D 데이터를 사용하여 SonicSet이라는 벤치마크 데이터셋을 구성했습니다. 실제 환경 데이터와의 차이점을 조사하기 위해 SonicSet 검증 세트에서 5시간 분량의 무반향 원시 데이터를 선택하고 실제 음성 분리 데이터셋을 녹음하여 SonicSet과 다른 합성 데이터셋을 비교하기 위한 기준을 제공했습니다. 실제 음성 향상을 위해 RealMAN 데이터셋을 사용하여 SonicSet과 기존 합성 데이터셋 간의 음향적 차이를 검증했습니다. 결과적으로 SonicSet으로 훈련된 모델이 다른 합성 데이터셋에 비해 실제 환경 시나리오에서 더 나은 일반화 성능을 보였습니다. 코드는 공개적으로 제공됩니다.

시사점, 한계점

시사점:
이동하는 음원에 대한 고도로 사용자 정의 가능한 데이터 생성을 위한 SonicSim 툴킷 제시.
다양한 데이터 소스를 활용한 실제 환경과 유사한 SonicSet 벤치마크 데이터셋 구축.
SonicSet으로 훈련된 모델이 실제 환경에서 더 나은 일반화 성능을 보임을 확인.
공개적으로 접근 가능한 코드 제공.
한계점:
합성 데이터의 한계로 인해 실제 환경과의 완벽한 일치는 어려울 수 있음.
실제 음성 분리 데이터셋의 규모가 제한적일 수 있음.
SonicSet의 다양성과 실제 환경과의 차이에 대한 추가적인 분석 필요.
👍