EMSYNC est un modèle de génération de musique symbolique basé sur la vidéo, qui génère une musique adaptée au contenu émotionnel et aux limites temporelles d'une vidéo. Il suit un cadre en deux étapes : un classificateur d'émotions vidéo pré-entraîné extrait les caractéristiques émotionnelles, et un générateur de musique conditionnelle génère des séquences MIDI basées sur ces indices émotionnels et temporels. Plus précisément, nous introduisons un nouveau mécanisme de conditionnement temporel, le décalage des limites, qui permet de prédire et d'aligner les accords musicaux sur les transitions de scène. Contrairement aux modèles existants, nous maintenons un codage basé sur les événements, garantissant un contrôle précis du timing et des nuances musicales expressives. De plus, nous proposons un schéma de mappage pour la connexion entre un classificateur d'émotions vidéo, qui génère des catégories émotionnelles discrètes, et un générateur MIDI conditionnel aux émotions, qui fonctionne sur des entrées continues de valence-éveil. Lors de tests d'écoute subjective, EMSYNC a surpassé les modèles de pointe sur toutes les mesures subjectives, tant pour les auditeurs avertis que pour les auditeurs occasionnels.