Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Yan est un framework fondamental qui englobe l'ensemble du processus de génération de vidéos interactives, de la simulation à la génération, en passant par le montage. Il se compose de trois modules principaux. Pour les simulations de niveau AAA, nous avons conçu un 3D-VAE hautement compressé et à faible latence, ainsi qu'un processus d'inférence de débruitage par décalage de fenêtre basé sur KV-Cache, afin d'obtenir une simulation interactive temps réel 1080p/60 ips. Pour la génération multimodale, nous intégrons des connaissances spécifiques au jeu vidéo dans un modèle de diffusion vidéo multimodal (VDM) à domaine ouvert, puis introduisons une méthode de sous-titrage autorégressif hiérarchique qui transforme le VDM en un générateur vidéo interactif infini, image par image et en temps réel, contrôlé par l'action. Même lorsque les invites textuelles et visuelles proviennent de domaines différents, le modèle présente une forte généralisation, permettant une combinaison et une composition flexibles de styles et de mécanismes inter-domaines en fonction des invites utilisateur. Pour le montage multi-particules, nous proposons un modèle hybride qui sépare explicitement la simulation des mécanismes d'interaction du rendu visuel, permettant ainsi un montage interactif et textuel de contenu vidéo multi-particules. En intégrant ces modules, Yan fait progresser la génération de vidéos interactives au-delà d'une fonction isolée vers un paradigme de génération interactive complet basé sur l'IA, ouvrant la voie à la prochaine génération d'outils créatifs, de médias et de divertissement.
Takeaways, Limitations
•
Takeaways:
◦
Mise en œuvre d'une simulation vidéo interactive de qualité AAA en temps réel 1080P/60FPS.
◦
Génération de vidéos multimodales et capacités de mixage de styles inter-domaines exploitant les connaissances spécifiques au jeu.
◦
Fournit des capacités d'édition de contenu vidéo multi-particules basées sur du texte.
◦
Présentation d’un nouveau paradigme dans la création de vidéos interactives et suggestion du potentiel des outils créatifs de nouvelle génération.
•
Limitations:
◦
L’article manque de références spécifiques à Limitations ou aux orientations de recherche futures.
◦
Manque d'informations détaillées sur l'évaluation des performances du modèle (manque de mesures d'évaluation quantitatives et de présentation des résultats)
◦
Manque d'informations sur les données de formation et la consommation de ressources du modèle.