Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MinD: Aprendizaje de un modelo de mundo de sistema dual para la planificación en tiempo real y el análisis de riesgos implícitos

Created by
  • Haebom

Autor

Xiaowei Chi, Kuangzhi Ge, Jiaming Liu, Siyuan Zhou, Peidong Jia, Zichen He, Yuzhen Liu, Tingguang Li, Lei Han, Sirui Han, Shanghang Zhang, Yike Guo

Describir

Este artículo propone Manipulate in Dream (MinD), un modelo de mundo de sistema dual para la planificación consciente de riesgos en tiempo real. MinD utiliza dos procesos de difusión asíncronos: un generador de visión de baja frecuencia (LoDiff) que predice escenas futuras y una política de difusión de alta frecuencia (HiDiff) que genera acciones. La idea central es que la política del robot puede basarse en variables latentes de baja resolución generadas en un solo paso de denoising, en lugar de requerir fotogramas completamente denoising. Para vincular las predicciones iniciales con las acciones, presentamos DiffMatcher, un módulo de alineación de video-acción con una novedosa estrategia de aprendizaje conjunto que sincroniza los dos modelos de difusión. MinD alcanza una tasa de éxito del 63% en RL-Bench y del 60% en la tarea real de Franka, operando a 11,3 fotogramas por segundo, lo que demuestra la eficacia de las características de variables latentes de un solo paso para la señalización de control. Además, MinD identifica preventivamente el 74% de los posibles fallos de la tarea, proporcionando señales de seguridad en tiempo real para la monitorización y la intervención. Este estudio presenta un nuevo paradigma para la manipulación eficiente y confiable de robots utilizando modelos mundiales generativos.

Takeaways, Limitations

Takeaways:
Presentamos la posibilidad de una manipulación eficiente de robots en tiempo real utilizando características de variables latentes de un solo paso.
Predicción de riesgos y mejora de la seguridad mediante modelos generativos.
Verificación del rendimiento mediante RL-Bench y experimentos con robots reales (alta tasa de éxito alcanzada).
Sincronización efectiva de dos modelos de difusión a través del módulo de alineación de vídeo-acción (DiffMatcher).
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del modelo propuesto.
Es necesario verificar la aplicabilidad a diversos entornos y tareas.
Se necesita más investigación para abordar la complejidad y la incertidumbre de los entornos del mundo real.
Falta de una explicación detallada sobre el ajuste de parámetros de LoDiff y HiDiff.
👍