Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MOGO : Transformateur causal hiérarchique quantifié résiduel pour la génération de mouvements humains 3D de haute qualité et en temps réel

Created by
  • Haebom

Auteur

Dongjie Fu, Tengjiao Sun, Pengcheng Fang, Xiaohao Cai, Hansung Kim

Contour

Dans cet article, nous proposons MOGO (Motion Generation with One-pass), un nouveau framework autorégressif pour la génération efficace de mouvements 3D en temps réel. MOGO se compose de deux composants principaux. Premièrement, le module de quantification vectorielle résiduelle adaptative à l'échelle de mouvement (MoSA-VQ) discrétise hiérarchiquement les séquences de mouvement grâce à une mise à l'échelle apprenable afin de générer des représentations concises et expressives. Deuxièmement, le transformateur causal hiérarchique quantifié résiduel (RQHC-Transformer), qui génère des jetons de mouvement multicouches en une seule passe, réduisant ainsi considérablement la latence d'inférence. Nous améliorons encore le décodage de mouvement contrôlé par le texte en ajoutant un mécanisme d'alignement conditionnel au texte. Des expériences approfondies sur des jeux de données de référence tels que HumanML3D, KIT-ML et CMP démontrent que MOGO atteint une qualité de génération compétitive, voire supérieure, à celle des méthodes de pointe basées sur les transformateurs, tout en offrant des améliorations significatives en termes de performances temps réel, de génération de flux et de généralisation en configuration zéro-shot.

Takeaways, Limitations

Takeaways:
Proposer MOGO, un nouveau cadre pour la génération de mouvements 3D efficace et en temps réel.
Générez des représentations de mouvement concises et expressives avec le module MoSA-VQ.
Réduction de la génération de jetons de mouvement multicouches et de la latence d'inférence en un seul passage vers l'avant à l'aide de RQHC-Transformer.
Décodage de mouvement amélioré sous contrôle de texte grâce à un mécanisme d'alignement conditionnel de texte.
Obtenez une qualité de génération compétitive et des performances en temps réel améliorées, une génération en streaming et des performances zéro coup par rapport aux méthodes de pointe.
Limitations:
L'article ne mentionne pas spécifiquement Limitations. D'autres expériences et analyses sont nécessaires pour élucider Limitations.
Les performances de MOGO peuvent être biaisées sur certains ensembles de données. Des expériences supplémentaires sur divers ensembles de données sont nécessaires.
L'analyse quantitative des améliorations de performances en temps réel peut faire défaut. Une analyse plus détaillée des performances est nécessaire.
👍