Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

RoBridge: una arquitectura jerárquica que conecta la cognición y la ejecución para la manipulación robótica general

Created by
  • Haebom

Autor

Kaidong Zhang, Rongtao Xu, Pengzhen Ren, Junfan Lin, Hefeng Wu, Liang Lin, Xiaodan Liang

Describir

Este artículo aborda una importante línea de investigación y aplicación de la robótica: la operación de robots en entornos abiertos que realizan diversas tareas. Los recientes avances en el procesamiento del lenguaje natural y los modelos multimodales a gran escala han mejorado la capacidad de los robots para comprender instrucciones complejas, pero la manipulación robótica aún enfrenta el dilema de las habilidades procedimentales y declarativas en entornos abiertos. Los métodos existentes a menudo requieren compromisos entre las capacidades cognitivas y ejecutivas. Para abordar estos problemas, en este artículo proponemos RoBridge, una arquitectura inteligente jerárquica para la manipulación general de robots. RoBridge consiste en un planificador cognitivo de alto nivel (HCP) basado en un gran modelo de visión-lenguaje (VLM) preentrenado, una representación operable invariante (IOR) como puente simbólico y un agente de implementación generalizado (GEA). RoBridge efectivamente cierra la brecha entre la cognición y la ejecución al preservar la habilidad declarativa de VLM y aprovechar la habilidad procedimental del aprendizaje de refuerzo. RoBridge demuestra mejoras significativas en el rendimiento con respecto a los modelos base existentes, alcanzando una tasa de éxito del 75 % en nuevas tareas y un promedio del 83 % en la generalización de simulación a realidad utilizando solo 5 muestras de datos reales por tarea. Este estudio representa un paso importante hacia la integración del razonamiento cognitivo y la ejecución física en sistemas robóticos, y presenta un nuevo paradigma para la manipulación robótica general.

Takeaways, Limitations

Takeaways:
Presentamos una nueva arquitectura, RoBridge, que combina modelos de lenguaje de visión preentrenados a gran escala y aprendizaje de refuerzo para mejorar las capacidades de percepción y ejecución de la manipulación robótica.
Nuevas tareas y simulaciones demuestran la eficacia de RoBridge al lograr altas tasas de éxito en la generalización en el mundo real.
Contribuye al campo general de la manipulación robótica al presentar un nuevo paradigma que integra el razonamiento cognitivo y la ejecución física.
Limitations:
El rendimiento de RoBridge puede depender de conjuntos de datos y entornos específicos.
Se necesitan pruebas y validaciones adicionales para aplicaciones del mundo real.
Se necesitan más investigaciones sobre la generalidad del IOR y su adaptabilidad a diversas tareas.
Costo computacional y requerimientos de datos debido a la dependencia de modelos grandes previamente entrenados.
👍