Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

UniForm : un transformateur de diffusion multitâche unifié pour la génération audio-vidéo

Created by
  • Haebom

Auteur

Lei Zhao, Linfeng Feng, Dongxu Ge, Rujin Chen, Fangqiu Yi, Chi Zhang, Xiao-Lei Zhang, Xuelong Li

Contour

UniForm est un transformateur de diffusion multitâche unifié qui génère des modalités audio et vidéo à partir d'un espace latent partagé. Contrairement aux approches modulaires distinctes existantes, il capture les corrélations entre le son et l'image grâce à un réseau de débruitage unifié. Il propose des techniques de débruitage et des jetons de tâche spécifiques à chaque tâche pour prendre en charge plusieurs tâches, notamment la génération vidéo-audio, audio-vidéo et texte-audio-vidéo, avec un seul ensemble de paramètres. Il exploite des modèles linguistiques à grande échelle et des ensembles de données conjoints texte-audio-vidéo à grande échelle pour obtenir une génération plus diversifiée que les méthodes existantes. Il atteint des performances proches des modèles monotâches de pointe sur trois tâches de génération, tout en présentant un alignement élevé avec les distributions de données réelles et en permettant une génération plus diversifiée et détaillée.

Takeaways, Limitations_

Takeaways:
Nous présentons une architecture intégrée pour la génération audio-vidéo afin d'exploiter efficacement les corrélations intermodales.
Prise en charge de diverses tâches (génération vidéo-audio, audio-vidéo, texte-audio-vidéo) avec un seul ensemble de paramètres.
Augmenter la diversité générative en exploitant de grands ensembles de données et des modèles linguistiques.
Atteindre des performances proches des modèles mono-tâches de pointe.
Limitations:
L'article ne mentionne pas explicitement le Limitations spécifique. Des analyses et des études comparatives complémentaires sont nécessaires pour élucider le Limitations.
👍