Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Yan est un framework fondamental pour la génération de vidéos interactives, qui englobe l'ensemble du processus de simulation, de génération et de montage. Il se compose de trois modules principaux. Pour les simulations de niveau AAA, nous avons conçu un 3D-VAE à haute compression et faible latence, ainsi qu'un processus d'inférence de débruitage par décalage de fenêtre basé sur le cache KV, afin d'obtenir une simulation interactive temps réel 1080p/60 ips. Pour la génération multimodale, nous introduisons une méthode de sous-titrage autorégressif hiérarchique qui intègre les connaissances spécifiques au jeu dans un modèle de diffusion vidéo multimodal (VDM) à domaine ouvert, puis transforme ce VDM en un générateur vidéo image par image, contrôlé par l'action, temps réel et infiniment interactif. Même lorsque les invites textuelles et visuelles proviennent de domaines différents, le modèle présente une forte généralisation et permet une combinaison et une composition flexibles de styles et de mécanismes inter-domaines en fonction des invites utilisateur. Pour le montage multigranulaire, nous proposons un modèle hybride qui sépare explicitement la simulation des mécanismes interactifs et le rendu visuel, permettant ainsi le montage multigranulaire de contenu vidéo lors d'interactions textuelles. En intégrant ces modules, Yan fait évoluer la génération de vidéos interactives au-delà d'une fonction isolée vers un paradigme de création interactive complet basé sur l'IA, ouvrant la voie à la prochaine génération d'outils créatifs, de médias et de divertissement.
Takeaways, Limitations
•
Takeaways:
◦
Simulation vidéo interactive en temps réel 1080P/60FPS de qualité AAA.
◦
Générer des vidéos interactives multimodales (texte, image) en utilisant des connaissances spécifiques au jeu.
◦
Mélange et composition flexibles de styles et de mécanismes inter-domaines.
◦
Fournit des capacités d'édition de contenu vidéo multi-grains basées sur du texte.
◦
Présentation d'un paradigme de création de contenu interactif basé sur l'IA.
•
Limitations:
◦
Sur la base des informations disponibles à ce jour, il est difficile de déterminer le Limitations spécifique. Des recherches supplémentaires sont nécessaires pour identifier les limites de performance du modèle, les besoins en ressources de calcul et les limites de généralisation.
◦
Plus d'informations sont nécessaires sur la page du projet.