Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

LaDi-WM: Un modelo mundial basado en la difusión latente para la manipulación predictiva

Created by
  • Haebom

Autor

Yuhang Huang, Jiazhao Zhang, Shilong Zou, Xinwang Liu, Ruizhen Hu, Kai Xu

Describir

Este artículo se centra en la manipulación predictiva, que aprovecha los estados predichos para mejorar el rendimiento de las políticas robóticas. Para abordar la dificultad de los modelos de mundo existentes para generar con precisión estados visuales futuros de interacciones robot-objeto, especialmente a nivel de píxel, proponemos LaDi-WM, un modelo de mundo que predice el espacio latente de estados futuros mediante modelado de difusión. LaDi-WM incorpora características geométricas (basadas en DINO) y semánticas (basadas en CLIP) al aprovechar modelos visuales preentrenados (VFM) y espacios latentes alineados. Demostramos que predecir cambios en el espacio latente facilita el aprendizaje y se generaliza mejor que la predicción directa de imágenes a nivel de píxel. Basándonos en LaDi-WM, diseñamos una política de difusión que mejora iterativamente el comportamiento de salida al incorporar estados predichos, lo que resulta en resultados más consistentes y precisos. Amplios experimentos en puntos de referencia sintéticos y del mundo real demuestran que LaDi-WM mejora el rendimiento de las políticas en un 27,9 % en el punto de referencia LIBERO-LONG y en un 20 % en escenarios del mundo real, logrando un rendimiento de generalización impresionante incluso en experimentos del mundo real.

Takeaways, Limitations

Takeaways:
Se propone un modelo mundial basado en la predicción del espacio latente utilizando modelos de difusión, LaDi-WM, y se ha demostrado que es más eficiente y tiene un mejor rendimiento de generalización que la predicción píxel por píxel.
Demostramos que la precisión y la consistencia de la manipulación del robot se pueden mejorar mediante el uso de una política de difusión que utiliza estados predichos.
Logramos mejoras de rendimiento notables en LIBERO-LONG y en entornos del mundo real.
Hemos demostrado un excelente rendimiento de generalización en entornos del mundo real.
Limitations:
El rendimiento de LaDi-WM puede depender del rendimiento del VFM utilizado.
Existe la posibilidad de que no refleje perfectamente la complejidad y diversidad de los entornos reales.
Debido a las limitaciones del punto de referencia, puede ser necesaria una validación adicional del rendimiento de generalización.
Los costos computacionales pueden ser altos (aunque no se indica explícitamente, la naturaleza del modelo de difusión sugiere que es probable que el costo computacional sea alto).
👍