Cet article examine les tendances récentes de la recherche selon lesquelles les modèles fondamentaux, notamment les modèles de langage à grande échelle (MLL) et les modèles vision-langage (MLV), ont permis de nouvelles approches de l'autonomie robotique et des interfaces homme-robot. Plus précisément, nous nous concentrons sur la manière dont les modèles vision-langage-action (MLA) et les modèles comportementaux à grande échelle (MLB) contribuent à améliorer la performance et la fonctionnalité des systèmes robotiques, et nous passons en revue les recherches évoluant vers des applications et des architectures basées sur des agents. Ces études vont de l'exploration d'interfaces d'outils de type GPT à des systèmes plus complexes dans lesquels les agents d'IA agissent comme coordinateurs, planificateurs, agents cognitifs ou interfaces générales. Ces architectures d'agents permettent aux robots de comprendre des commandes en langage naturel, d'invoquer des API, de planifier des séquences de tâches et de prendre en charge les opérations et les diagnostics. Reflétant l'évolution rapide de ce domaine, nous couvrons non seulement les recherches évaluées par les pairs, mais aussi les projets communautaires, les packages ROS et les cadres industriels. Nous proposons une taxonomie pour catégoriser les approches d'intégration de modèles et fournissons une analyse comparative du rôle des agents dans diverses solutions issues de la littérature actuelle.