Dans cet article, nous proposons MOGO (Motion Generation with One-pass), un nouveau framework autorégressif pour la génération efficace de mouvements 3D en temps réel. MOGO se compose de deux composants principaux. Premièrement, le module de quantification vectorielle résiduelle adaptative à l'échelle de mouvement (MoSA-VQ) discrétise hiérarchiquement les séquences de mouvement grâce à une mise à l'échelle apprenable afin de générer des représentations concises et expressives. Deuxièmement, le transformateur causal hiérarchique quantifié résiduel (RQHC-Transformer), qui génère des jetons de mouvement multicouches en une seule passe, réduisant ainsi considérablement la latence d'inférence. Nous améliorons encore le décodage de mouvement contrôlé par le texte en ajoutant un mécanisme d'alignement conditionnel au texte. Des expériences approfondies sur des jeux de données de référence tels que HumanML3D, KIT-ML et CMP démontrent que MOGO atteint une qualité de génération compétitive, voire supérieure, à celle des méthodes de pointe basées sur les transformateurs, tout en offrant des améliorations significatives en termes de performances temps réel, de génération de flux et de généralisation en configuration zéro-shot.