EMSYNC es un modelo de generación de música simbólica basado en video que genera música adaptada al contenido emocional y los límites temporales de un video. Sigue un marco de dos etapas: un clasificador de emociones de video preentrenado extrae características emocionales, y un generador de música condicional genera secuencias MIDI basadas en estas señales emocionales y temporales. Específicamente, introducimos un novedoso mecanismo de condicionamiento temporal, el desplazamiento de límites, que permite la predicción y alineación de acordes musicales con transiciones entre escenas. A diferencia de los modelos existentes, mantenemos la codificación basada en eventos, lo que garantiza un control preciso del tiempo y matices musicales expresivos. Además, proponemos un esquema de mapeo para la conexión entre un clasificador de emociones de video, que genera categorías emocionales discretas, y un generador MIDI condicional a la emoción, que opera con entradas continuas de valencia-activación. En pruebas de escucha subjetiva, EMSYNC superó a los modelos más avanzados en todas las métricas subjetivas, tanto para oyentes con conocimientos de teoría musical como para oyentes ocasionales.