Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Mélange de contextes pour la génération de vidéos longues

Created by
  • Haebom

Auteur

Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein

Contour

Cet article reformule la génération de vidéos longues comme un problème de mémoire contextuelle longue durée et propose un module de routage attentionnel clairsemé et apprenable appelé Contexte Mixte (MoC). Le MoC utilise le routage causal pour éviter la fermeture récursive du chemin en sélectionnant dynamiquement quelques fragments riches en informations et des ancres essentielles (sous-titres, fenêtres locales) pour chaque requête. En augmentant la taille des données et en éparsifiant progressivement le routage, le modèle alloue le calcul aux enregistrements historiques importants, préservant ainsi les identités, les actions et les scènes sur plusieurs minutes de contenu. Cela apporte de l'efficacité grâce à la récupération (mise à l'échelle quasi linéaire), permettant un apprentissage et une synthèse pratiques, et présente une mémoire et une cohérence de l'ordre de quelques minutes. En abordant le coût quadratique des mécanismes d'auto-attention existants grâce au routage attentionnel clairsemé, le MoC permet la génération de vidéos longues durées.

Takeaways, Limitations

Takeaways:
Nous présentons une méthode efficace pour générer de longues vidéos contextuelles (avec une évolutivité presque linéaire).
Résolution des problèmes de mémoire et de cohérence dans la génération de vidéos longues.
Résolution du problème de coût de calcul des mécanismes d'auto-attention grâce au routage d'attention clairsemée.
Offre la possibilité de créer de longues vidéos en quelques minutes.
Limitations:
Les performances du module MoC peuvent dépendre fortement de la taille des données et de la stratégie de parcimonie.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Des analyses plus approfondies sont nécessaires sur l’efficacité et les limites de la prévention de la fermeture du chemin circulaire par la désignation du chemin causal.
Une analyse détaillée des ressources informatiques et des besoins en mémoire nécessaires aux applications pratiques est nécessaire.
👍