Este artículo presenta SonicMaster, el primer modelo generativo unificado que aborda diversos artefactos de audio mediante control basado en texto para abordar problemas comunes de calidad de sonido en grabaciones musicales producidas sin equipo profesional ni experiencia, como reverberación excesiva, distorsión, recorte, desequilibrio tímbrico e imágenes estéreo estrechas. SonicMaster aplica mejoras específicas basadas en instrucciones de lenguaje natural o funciona en modo automático para la restauración general. Para entrenar este modelo, los autores crearon el conjunto de datos SonicMaster, un conjunto de datos a gran escala de pistas degradadas y de alta calidad, simulando tipos de degradación comunes mediante 19 funciones de degradación pertenecientes a cinco grupos de mejora: ecualización, dinámica, reverberación, amplitud y estéreo. Este enfoque utiliza un paradigma de entrenamiento generativo de coincidencia de flujo para aprender transformaciones de audio desde la entrada degradada a una versión limpia y masterizada, guiado por indicaciones de texto.