본 논문은 전문적인 장비나 전문 지식 없이 제작된 음악 녹음에서 흔히 발생하는 과도한 잔향, 왜곡, 클리핑, 음색 불균형, 좁은 스테레오 이미지와 같은 음질 문제를 해결하기 위해 텍스트 기반 제어를 통해 다양한 오디오 아티팩트를 처리하는 최초의 통합 생성 모델인 SonicMaster를 소개합니다. SonicMaster는 자연어 지침에 따라 특정 향상을 적용하거나, 일반적인 복원을 위해 자동 모드로 작동합니다. 이 모델을 훈련하기 위해, 저자들은 equalization, dynamics, reverb, amplitude, stereo의 5가지 향상 그룹에 속하는 19가지 degradation function을 사용하여 일반적인 degradation types을 시뮬레이션하여 열화된 트랙과 고품질 트랙의 대규모 데이터 세트인 SonicMaster 데이터 세트를 구축했습니다. 이 접근 방식은 텍스트 프롬프트에 따라 열화된 입력에서 정리되고 마스터링된 버전으로 오디오 변환을 학습하기 위해 flow-matching 생성 훈련 패러다임을 활용합니다.