Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Robix: Un modelo unificado para la interacción, el razonamiento y la planificación de robots

Created by
  • Haebom

Autor

Huang Fang, Mengxi Zhang, Heng Dong, Wei Li, Zixuan Wang, Qifeng Zhang, Xueyun Tian, ​​​​Yucheng Hu, Hang Li

Describir

Robix es un modelo integrado que integra razonamiento robótico, planificación de tareas e interacción con lenguaje natural en una única arquitectura de visión y lenguaje. Al actuar como una capa cognitiva de alto nivel en un sistema robótico jerárquico, Robix genera dinámicamente comandos atómicos para controladores de bajo nivel y respuestas verbales para la interacción humana, lo que permite a los robots seguir instrucciones complejas, planificar tareas a largo plazo e interactuar de forma natural con los humanos en un marco integral. Robix introduce nuevas capacidades como la conversación proactiva durante la ejecución de tareas, la gestión de interrupciones en tiempo real y el razonamiento de sentido común contextual. En esencia, Robix aprovecha el razonamiento en cadena de pensamiento y emplea una estrategia de entrenamiento de tres etapas: (1) preentrenamiento continuo para mejorar las habilidades básicas de razonamiento de implementación, incluyendo la comprensión espacial 3D, el razonamiento visual y el razonamiento orientado a tareas; (2) ajuste supervisado para modelar la interacción humano-robot y la planificación de tareas como secuencias integradas de razonamiento-acción; y (3) aprendizaje por refuerzo para mejorar la coherencia entre razonamiento y acción, así como la coherencia de las tareas a largo plazo. Experimentos exhaustivos muestran que Robix supera los puntos de referencia comerciales y de código abierto (por ejemplo, GPT-4o y Gemini 2.5 Pro) en la ejecución de tareas interactivas, lo que demuestra una fuerte generalización en una variedad de tipos de instrucciones (por ejemplo, abiertas, de varios pasos, restringidas, nulas e interrumpidas) y en una variedad de tareas relacionadas con el usuario, como limpiar la mesa, hacer las compras y filtrar la dieta.

Takeaways, Limitations

Takeaways:
Presentamos un modelo integrado que integra razonamiento robótico, planificación de tareas e interacción en lenguaje natural en una única arquitectura de visión-lenguaje.
Presentamos nuevas funciones como conversación previa, manejo de interrupciones en tiempo real y razonamiento de sentido común consciente del contexto.
Demostró un sólido desempeño de generalización en una variedad de tareas y tipos de instrucciones.
Logra un rendimiento superior en comparación con los modelos de referencia comerciales y de código abierto.
Limitations:
El artículo carece de Limitations específicos o direcciones de investigación futuras.
Se requiere una descripción detallada del entorno experimental y del conjunto de datos.
Se necesita más investigación sobre la escalabilidad y aplicabilidad del modelo a entornos del mundo real.
👍