Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SpA2V : Exploiter les signaux auditifs spatiaux pour la génération de vidéos spatiales pilotées par l'audio

Created by
  • Haebom

Auteur

Kien T. Pham, Yingqing He, Yazhou Xing, Qifeng Chen, Long Chen

Contour

Cet article présente SpA2V, un nouveau framework de génération vidéo audio qui exploite les indices auditifs spatiaux pour générer des vidéos réalistes et précises. Contrairement aux méthodes existantes qui se concentrent principalement sur les informations sémantiques, comme le type de son, SpA2V exploite explicitement les indices spatiaux dérivés de propriétés physiques, comme l'intensité sonore et la fréquence. SpA2V se compose de deux étapes : une étape de planification vidéo audioguidée qui génère une mise en page de scène vidéo (VSL) à partir des indices spatiaux et sémantiques de l'audio, et une étape de génération vidéo basée sur la mise en page qui génère une vidéo en utilisant un modèle de diffusion pré-entraîné comme condition sur la VSL. Les résultats expérimentaux démontrent que SpA2V excelle dans la génération de vidéos réalistes, sémantiquement et spatialement alignées avec l'audio d'entrée.

Takeaways, Limitations

Takeaways:
Nous soulignons l’importance des indices auditifs spatiaux dans la génération de vidéos audio et présentons un nouveau cadre pour les utiliser efficacement.
Surmonter les limites des méthodes existantes et obtenir des performances de génération vidéo avec une cohérence sémantique et spatiale élevée.
Utilisation efficace du VSL comme représentation intermédiaire comblant le fossé entre les modalités audio-vidéo.
Mise en œuvre d'une génération vidéo efficace et efficiente en exploitant des modèles de diffusion pré-entraînés.
Limitations:
L'évaluation des performances de SpA2V a peut-être été réalisée dans un cadre expérimental limité, et une évaluation des performances pour une gamme plus large d'audio et de scénarios est nécessaire.
Les performances du MLLM utilisé dans l’étape de génération VSL peuvent affecter les performances globales de SpA2V.
Dans les signaux audio complexes ou lorsque différentes sources sonores sont mélangées, la précision de l'extraction des repères spatiaux peut diminuer.
Les cadres actuels peuvent manquer de prise en compte de la cohérence temporelle dans la génération de vidéos.
👍