Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Un enfoque sin entrenamiento para la transferencia de estilos musicales con modelos de difusión latente

Created by
  • Haebom

Autor

Heehwan Wang, Joonwoo Kwon, Sooyoung Kim, Shinjae Yoo, Yuewei Lin, Jiook Cha

Describir

Este artículo propone Stylus, un novedoso marco de trabajo sin entrenamiento que realiza la transferencia de estilos musicales mediante la manipulación directa de la capa de autoatención de un modelo de difusión latente (LDM) preentrenado. Operando en el dominio del espectrograma Mel, Stylus transfiere estilos musicales reemplazando las representaciones de clave y valor del contenido de audio con representaciones de referencias estilísticas sin necesidad de ajustes. Integra preservación de consultas, escalado guiado basado en CFG, interpolación multiestilo y reconstrucción con preservación de fase para mejorar la calidad y la controlabilidad del estilo. Mejora significativamente la calidad perceptual y la preservación de la estructura en comparación con trabajos anteriores, a la vez que mantiene su ligereza y facilidad de implementación. Este estudio destaca el potencial de la manipulación de la atención basada en la difusión para la generación de música eficiente, de alta fidelidad e interpretable sin entrenamiento.

Takeaways, Limitations

Takeaways:
Transferencia de estilos musicales sin datos de entrenamiento utilizando modelos pre-entrenados.
Mejora de la calidad de percepción y de la conservación estructural en comparación con los métodos existentes
Presentamos un marco eficiente que es liviano y fácil de implementar.
Calidad y control de estilo mejorados mediante conservación de consultas, escalado de guía inspirado en CFG y más.
Demostrando la utilidad de la manipulación de la atención basada en la difusión
Limitations:
La divulgación del código se realizará después de que se acepte el artículo.
Es necesaria una evaluación más profunda del rendimiento de la transferencia entre distintos géneros y estilos musicales.
Es necesario un análisis comparativo con otros modelos de generación musical.
Falta de análisis cuantitativo del desempeño de factores adicionales, como el escalamiento de orientación inspirado en CFG.
👍