Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Manipulación de largo horizonte incorporada con generación de código de bucle cerrado y adaptación incremental de pocos disparos

Created by
  • Haebom

Autor

Yuan Meng, Xiangtong Yao, Haihui Ye, Yirui Zhou, Shengqiang Zhang, Zhenguo Sun, Xukun Li, Zhenshan Bing, Alois Knoll

Describir

Este artículo presenta un novedoso marco de control robótico para la manipulación de objetos de larga duración. Dado que los enfoques actuales basados ​​en el aprendizaje se basan en grandes conjuntos de datos específicos de cada tarea y presentan dificultades para generalizarse a escenarios desconocidos, este estudio propone un marco de bucle cerrado que utiliza un modelo de lenguaje a gran escala (LLM) para generar planes de código directamente ejecutables, en lugar de depender de controladores de bajo nivel preentrenados. El LLM genera planes de tareas robustos y generalizables mediante unas pocas iteraciones de aprendizaje guiadas por el Curso de Pensamiento (CdP) y ejemplos progresivamente estructurados. Un reportero que utiliza RGB-D evalúa los resultados y proporciona retroalimentación estructurada, lo que permite la corrección de errores y la replanificación bajo observación parcial. Esto elimina la inferencia paso a paso, reduce la sobrecarga computacional y limita la acumulación de errores observada en métodos previos. Logra un rendimiento de vanguardia en más de 30 tareas diversas de larga duración, tanto conocidas como desconocidas, en entornos reales saturados, como LoHoRavens, CALVIN, Franka Kitchen y otros.

Takeaways, Limitations

Takeaways:
Presentamos una nueva solución al problema de manipulación de objetos a largo plazo aprovechando modelos de lenguaje a gran escala para generar código directamente ejecutable sin un controlador de bajo nivel.
Generar planes de acción sólidos y generalizables a través de procesos de pensamiento guiado (CoT) y aprendizaje de ejemplos progresivo y estructurado.
Un marco de circuito cerrado y un sistema de retroalimentación basado en RGB-D permiten la corrección de errores y la replanificación, reduciendo la inferencia paso a paso y la acumulación de errores.
Logre un rendimiento de vanguardia para más de 30 tareas en una variedad de entornos.
Limitations:
Depende del rendimiento de LLM, y las limitaciones de LLM pueden afectar directamente el rendimiento del sistema.
Dado que hay partes que dependen del sensor RGB-D, el funcionamiento del sistema puede verse afectado si el sensor está degradado o no está disponible.
El rendimiento de generalización en entornos del mundo real requiere más experimentación y validación.
El costo computacional de LLM puede ser significativo y se necesita más investigación sobre su desempeño en tiempo real.
👍