Este artículo examina las tendencias de investigación recientes en las que los modelos fundamentales, incluyendo los modelos de lenguaje a gran escala (LLM) y los modelos de visión-lenguaje (VLM), han permitido nuevos enfoques para la autonomía robótica y las interfaces humano-robot. Específicamente, nos centramos en cómo los modelos de visión-lenguaje-acción (VLA) y los modelos de comportamiento a gran escala (LBM) contribuyen a mejorar la competencia y la funcionalidad de los sistemas robóticos, y revisamos la investigación que avanza hacia aplicaciones y arquitecturas basadas en agentes. Estos estudios abarcan desde la exploración de interfaces de herramientas de tipo GPT hasta sistemas más complejos en los que los agentes de IA actúan como coordinadores, planificadores, agentes cognitivos o interfaces generales. Estas arquitecturas de agentes permiten a los robots comprender comandos de lenguaje natural, invocar API, planificar secuencias de tareas y apoyar operaciones y diagnósticos. Reflejando la rápida evolución de este campo, abarcamos no solo investigaciones revisadas por pares, sino también proyectos impulsados por la comunidad, paquetes ROS y marcos de trabajo de la industria. Proponemos una taxonomía para categorizar los enfoques de integración de modelos y ofrecemos un análisis comparativo del papel que desempeñan los agentes en diversas soluciones en la literatura actual.