Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Génération de bandes sonores vidéo en alignant les émotions et les limites temporelles

Created by
  • Haebom

Auteur

Serkan Sulun, Paula Viana, Matthew EP Davies

Contour

EMSYNC est un modèle de génération de musique symbolique basé sur la vidéo, qui génère une musique adaptée au contenu émotionnel et aux limites temporelles d'une vidéo. Il suit un cadre en deux étapes : un classificateur d'émotions vidéo pré-entraîné extrait les caractéristiques émotionnelles, et un générateur de musique conditionnelle génère des séquences MIDI basées sur ces indices émotionnels et temporels. Plus précisément, nous introduisons un nouveau mécanisme de conditionnement temporel, le décalage des limites, qui permet de prédire et d'aligner les accords musicaux sur les transitions de scène. Contrairement aux modèles existants, nous maintenons un codage basé sur les événements, garantissant un contrôle précis du timing et des nuances musicales expressives. De plus, nous proposons un schéma de mappage pour la connexion entre un classificateur d'émotions vidéo, qui génère des catégories émotionnelles discrètes, et un générateur MIDI conditionnel aux émotions, qui fonctionne sur des entrées continues de valence-éveil. Lors de tests d'écoute subjective, EMSYNC a surpassé les modèles de pointe sur toutes les mesures subjectives, tant pour les auditeurs avertis que pour les auditeurs occasionnels.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau modèle qui génère une musique qui correspond précisément au contenu émotionnel et aux limites temporelles d'une vidéo.
Alignement temporel sophistiqué et subtilité musicale grâce au décalage des limites.
Contrôle du timing précis grâce à la maintenance de l'encodage basé sur les événements.
Surpasse les modèles de pointe dans les tests d'écoute subjectifs.
Proposer un schéma de mappage efficace entre les catégories d'émotions discrètes et les entrées d'éveil de valence à valeur continue.
Limitations:
Cet article n'aborde pas spécifiquement Limitations. Des analyses et évaluations plus approfondies sont nécessaires pour élucider Limitations concernant les performances de généralisation du modèle, son applicabilité à divers genres vidéo et son coût de calcul.
👍