Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MIDAS : Synthèse numérique-humaine interactive multimodale via la génération vidéo autorégressive en temps réel

Created by
  • Haebom

Auteur

Ming Chen, Liyuan Cui, Wenyuan Zhang, Haoxian Zhang, Yan Zhou, Xiaohan Li, Songlin Tang, Jiwen Liu, Borui Liao, Hejia Chen, Xiaoqiang Liu, Pengfei Wan

Contour

Cet article présente un cadre pour la génération de vidéos numériques interactives en temps réel. Pour pallier le coût de calcul élevé et la contrôlabilité limitée des méthodes existantes, nous proposons une méthode de génération vidéo autorégressive capable d'une inférence à faible latence. Avec une modification minimale d'un modèle de langage à grande échelle (LLM), elle accepte divers encodages conditionnels, notamment audio, pose et texte, et produit des représentations spatialement et sémantiquement cohérentes qui guident le processus de débruitage d'un modèle de diffusion. Un jeu de données de conversation à grande échelle d'environ 20 000 heures est construit pour l'entraînement du modèle, et un autoencodeur compressif profond avec des taux de compression allant jusqu'à 64x est introduit pour réduire efficacement la charge d'inférence à long terme du modèle autorégressif. Cette approche démontre une faible latence, une grande efficacité et une contrôlabilité multimodale fine dans diverses expériences, notamment la conversation bidirectionnelle, la synthèse humaine multilingue et les modèles de monde interactifs.

Takeaways, Limitations

Takeaways:
Présentation de nouvelles possibilités de création de vidéos humaines numériques pouvant interagir en temps réel.
Contrôlabilité sophistiquée utilisant diverses modalités (audio, pose, texte)
Obtenir une inférence à faible latence et à haute efficacité à l'aide d'autoencodeurs à compression profonde.
Refléter des scénarios de conversation réels en créant un ensemble de données de conversation à grande échelle
Limitations:
Une évaluation plus approfondie des performances de généralisation de la méthode proposée est nécessaire.
Une analyse est nécessaire pour traiter la perte d’informations potentielle et la dégradation de la qualité de l’image qui peuvent survenir pendant le processus de compression.
Manque de description détaillée de la composition et de la qualité de l’ensemble de données de conversation de 20 000 heures.
Une analyse comparative plus détaillée avec d’autres méthodes de pointe est nécessaire.
👍