Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MOGO: Transformador causal jerárquico cuantificado residual para la generación de movimiento humano 3D de alta calidad y en tiempo real

Created by
  • Haebom

Autor

Dongjie Fu, Tengjiao Sun, Pengcheng Fang, Xiaohao Cai, Hansung Kim

Describir

En este artículo, proponemos MOGO (Generación de Movimiento con Una Pase), un novedoso marco autorregresivo para la generación eficiente de movimiento 3D en tiempo real. MOGO consta de dos componentes principales. En primer lugar, el módulo Cuantización Vectorial Residual Adaptativa a Escala de Movimiento (MoSA-VQ), que discretiza jerárquicamente secuencias de movimiento mediante escalamiento aprendible para generar representaciones concisas y a la vez expresivas. En segundo lugar, el Transformador Causal Jerárquico Cuantificado Residual (RQHC-Transformer), que genera tokens de movimiento multicapa en una sola pasada hacia adelante, lo que reduce significativamente la latencia de inferencia. Mejoramos aún más la decodificación de movimiento controlada por texto mediante la incorporación de un mecanismo de alineación condicional de texto. Experimentos exhaustivos con conjuntos de datos de referencia como HumanML3D, KIT-ML y CMP demuestran que MOGO alcanza una calidad de generación competitiva o superior a la de los métodos de vanguardia basados en Transformers, a la vez que ofrece mejoras significativas en el rendimiento en tiempo real, la generación de streaming y la generalización en entornos de disparo cero.

Takeaways, Limitations

Takeaways:
Proponemos MOGO, un nuevo marco para la generación de movimiento 3D eficiente en tiempo real.
Genere representaciones de movimiento concisas y expresivas con el módulo MoSA-VQ.
Reducción de la latencia de inferencia y generación de tokens de movimiento multicapa en una sola pasada hacia adelante utilizando RQHC-Transformer.
Decodificación de movimiento mejorada bajo control de texto a través de un mecanismo de alineación condicional de texto.
Logre una calidad de generación competitiva y un mejor rendimiento en tiempo real, generación de streaming y rendimiento de cero disparos en comparación con los métodos de última generación.
Limitations:
El artículo no menciona específicamente Limitations. Se requieren más experimentos y análisis para dilucidar Limitations.
El rendimiento de MOGO podría estar sesgado en ciertos conjuntos de datos. Se requieren más experimentos con diversos conjuntos de datos.
Es posible que falte un análisis cuantitativo de las mejoras de rendimiento en tiempo real. Se necesita un análisis de rendimiento más detallado.
👍