Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

HyCodePolicy: Controladores de lenguaje híbridos para la monitorización y toma de decisiones multimodales en agentes encarnados

Created by
  • Haebom

Autor

Yibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu

Describir

Este artículo analiza los avances recientes en modelos de lenguaje multimodales a gran escala (MLLM), que permiten obtener evidencia perceptual enriquecida para la generación de políticas de código en agentes encarnados. La mayoría de los sistemas existentes carecen de mecanismos efectivos para la monitorización adaptativa de la ejecución de políticas y la recuperación de código durante la finalización de tareas. Este estudio presenta HyCodePolicy, un marco de control híbrido basado en lenguaje que integra sistemáticamente la síntesis de código, la evidencia geométrica, la monitorización perceptual y la recuperación iterativa en el ciclo de programación de bucle cerrado de agentes encarnados. Dada una instrucción en lenguaje natural, el sistema la descompone primero en subobjetivos y genera un programa ejecutable inicial basado en primitivas geométricas orientadas a objetos. Posteriormente, mientras el programa se ejecuta en simulación, un modelo de visión-lenguaje (VLM) observa puntos de control seleccionados para detectar, localizar e inferir la causa de los fallos de ejecución. Mediante la integración de trazas de ejecución estructuradas que capturan eventos a nivel de programa con retroalimentación perceptual basada en VLM, HyCodePolicy infiere la causa de los fallos y recupera el programa. Este mecanismo híbrido de doble retroalimentación permite la síntesis de programas autocorrectivos con mínima supervisión humana. Los resultados experimentales demuestran que HyCodePolicy mejora significativamente la robustez y la eficiencia de las muestras de las políticas de manipulación robótica, proporcionando una estrategia escalable para integrar la inferencia multimodal en los procesos de toma de decisiones autónoma.

Takeaways, Limitations

Takeaways:
Presentamos HyCodePolicy, un nuevo marco que aprovecha la inferencia multimodal para mejorar la robustez y la eficiencia de la muestra de las políticas de manipulación de robots.
Implementar un ciclo de programación de circuito cerrado que integra síntesis de código, razonamiento geométrico, monitoreo perceptivo y recuperación iterativa.
La síntesis de programas autocorrectores es posible a través de un mecanismo de retroalimentación dual híbrido que combina retroalimentación perceptiva basada en VLM y seguimiento de eventos a nivel de programa.
Proporcionar una estrategia escalable para integrar la inferencia multimodal en procesos de toma de decisiones autónomos.
Limitations:
El rendimiento de HyCodePolicy puede depender del rendimiento del VLM y de otros componentes utilizados.
Puede tener una capacidad limitada para manejar situaciones de fallas complejas o inesperadas.
El rendimiento en un entorno simulado no garantiza la generalización a entornos del mundo real.
Se debe tener en cuenta las restricciones y problemas adicionales que pueden surgir cuando se aplica a sistemas robóticos reales.
👍