Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Generación de bandas sonoras de vídeo mediante la alineación de emociones y límites temporales

Created by
  • Haebom

Autor

Serkan Sulun, Paula Viana, Matthew EP Davies

Describir

EMSYNC es un modelo de generación de música simbólica basado en video que genera música adaptada al contenido emocional y los límites temporales de un video. Sigue un marco de dos etapas: un clasificador de emociones de video preentrenado extrae características emocionales, y un generador de música condicional genera secuencias MIDI basadas en estas señales emocionales y temporales. Específicamente, introducimos un novedoso mecanismo de condicionamiento temporal, el desplazamiento de límites, que permite la predicción y alineación de acordes musicales con transiciones entre escenas. A diferencia de los modelos existentes, mantenemos la codificación basada en eventos, lo que garantiza un control preciso del tiempo y matices musicales expresivos. Además, proponemos un esquema de mapeo para la conexión entre un clasificador de emociones de video, que genera categorías emocionales discretas, y un generador MIDI condicional a la emoción, que opera con entradas continuas de valencia-activación. En pruebas de escucha subjetiva, EMSYNC superó a los modelos más avanzados en todas las métricas subjetivas, tanto para oyentes con conocimientos de teoría musical como para oyentes ocasionales.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo modelo que genera música que coincide con precisión con el contenido emocional y los límites temporales de un vídeo.
Alineación temporal sofisticada y sutileza musical a través del desplazamiento de límites.
Control de tiempo de grano fino a través del mantenimiento de codificación basado en eventos.
Supera los modelos de última generación en pruebas de escucha subjetiva.
Proponer un esquema de mapeo efectivo entre categorías de emociones discretas y entradas de valencia-activación de valor continuo.
Limitations:
El artículo no aborda específicamente Limitations. Se requieren más análisis y evaluaciones para dilucidar Limitations el rendimiento de generalización del modelo, su aplicabilidad a diversos géneros de vídeo y su coste computacional.
👍