Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Hacia una IA agente encarnada: revisión y clasificación de la autonomía e interacción de robots impulsados por LLM y VLM

Created by
  • Haebom

Autor

Sahar Salimpour, Lei Fu, Farhad Keramat, Leonardo Militano, Giovanni Toffetti, Harry Edelman, Jorge Peña en Queralta

Describir

Este artículo examina las tendencias de investigación recientes en las que los modelos fundamentales, incluyendo los modelos de lenguaje a gran escala (LLM) y los modelos de visión-lenguaje (VLM), han permitido nuevos enfoques para la autonomía robótica y las interfaces humano-robot. Específicamente, nos centramos en cómo los modelos de visión-lenguaje-acción (VLA) y los modelos de comportamiento a gran escala (LBM) contribuyen a mejorar la competencia y la funcionalidad de los sistemas robóticos, y revisamos la investigación que avanza hacia aplicaciones y arquitecturas basadas en agentes. Estos estudios abarcan desde la exploración de interfaces de herramientas de tipo GPT hasta sistemas más complejos en los que los agentes de IA actúan como coordinadores, planificadores, agentes cognitivos o interfaces generales. Estas arquitecturas de agentes permiten a los robots comprender comandos de lenguaje natural, invocar API, planificar secuencias de tareas y apoyar operaciones y diagnósticos. Reflejando la rápida evolución de este campo, abarcamos no solo investigaciones revisadas por pares, sino también proyectos impulsados por la comunidad, paquetes ROS y marcos de trabajo de la industria. Proponemos una taxonomía para categorizar los enfoques de integración de modelos y ofrecemos un análisis comparativo del papel que desempeñan los agentes en diversas soluciones en la literatura actual.

Takeaways, Limitations

Takeaways:
Una presentación completa de las tendencias de investigación en autonomía de robots e interfaz humano-robot basada en modelos básicos.
Analizar sistemáticamente varios enfoques y roles en la arquitectura robótica basada en agentes.
Reflexión exhaustiva de las últimas tendencias en el campo, incluidos proyectos liderados por la comunidad y marcos industriales.
Contribuir al avance del campo de investigación proponiendo un sistema de clasificación para enfoques de integración de modelos.
Limitations:
Esta es una presentación de las tendencias de investigación basadas en la fecha de publicación del artículo (agosto de 2025) y es posible que no refleje los avances tecnológicos posteriores.
Aunque se han comparado y analizado varios modelos y marcos, las comparaciones cuantitativas del desempeño pueden ser limitadas.
Falta de discusión en profundidad sobre la seguridad y confiabilidad de las arquitecturas basadas en agentes.
👍