SonicMaster는 텍스트 기반 제어를 통해 다양한 오디오 아티팩트(과도한 잔향, 왜곡, 클리핑, 음색 불균형, 좁은 스테레오 이미지 등)를 해결하는 최초의 통합 생성 모델입니다. 비전문적인 환경에서 제작된 음악 녹음의 품질 문제를 해결하기 위해 개발되었으며, 자연어 명령어를 통해 특정 개선을 적용하거나 일반적인 복원을 위해 자동 모드로 작동할 수 있습니다. 다양한 왜곡 유형을 시뮬레이션하여 생성된 대규모 SonicMaster 데이터셋을 사용하여 훈련되었으며, flow-matching 생성 훈련 패러다임을 활용하여 텍스트 프롬프트의 안내에 따라 저품질 오디오를 고품질 오디오로 변환하는 것을 학습합니다. 객관적인 오디오 품질 측정 및 주관적인 청취 테스트 결과, SonicMaster는 모든 아티팩트 범주에서 음질을 크게 향상시키고, 원본 저품질 오디오보다 선호되는 결과를 제공하는 것으로 나타났습니다.