En este artículo, proponemos MOGO (Generación de Movimiento con Una Pase), un novedoso marco autorregresivo para la generación eficiente de movimiento 3D en tiempo real. MOGO consta de dos componentes principales. En primer lugar, el módulo Cuantización Vectorial Residual Adaptativa a Escala de Movimiento (MoSA-VQ), que discretiza jerárquicamente secuencias de movimiento mediante escalamiento aprendible para generar representaciones concisas y a la vez expresivas. En segundo lugar, el Transformador Causal Jerárquico Cuantificado Residual (RQHC-Transformer), que genera tokens de movimiento multicapa en una sola pasada hacia adelante, lo que reduce significativamente la latencia de inferencia. Mejoramos aún más la decodificación de movimiento controlada por texto mediante la incorporación de un mecanismo de alineación condicional de texto. Experimentos exhaustivos con conjuntos de datos de referencia como HumanML3D, KIT-ML y CMP demuestran que MOGO alcanza una calidad de generación competitiva o superior a la de los métodos de vanguardia basados en Transformers, a la vez que ofrece mejoras significativas en el rendimiento en tiempo real, la generación de streaming y la generalización en entornos de disparo cero.