Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Vers une IA agentique incarnée : revue et classification de l'autonomie et de l'interaction des robots pilotés par LLM et VLM

Created by
  • Haebom

Auteur

Sahar Salimpour, Lei Fu, Farhad Keramat, Leonardo Militano, Giovanni Toffetti, Harry Edelman, Jorge Pe na Queralta

Contour

Cet article examine les tendances récentes de la recherche selon lesquelles les modèles fondamentaux, notamment les modèles de langage à grande échelle (MLL) et les modèles vision-langage (MLV), ont permis de nouvelles approches de l'autonomie robotique et des interfaces homme-robot. Plus précisément, nous nous concentrons sur la manière dont les modèles vision-langage-action (MLA) et les modèles comportementaux à grande échelle (MLB) contribuent à améliorer la performance et la fonctionnalité des systèmes robotiques, et nous passons en revue les recherches évoluant vers des applications et des architectures basées sur des agents. Ces études vont de l'exploration d'interfaces d'outils de type GPT à des systèmes plus complexes dans lesquels les agents d'IA agissent comme coordinateurs, planificateurs, agents cognitifs ou interfaces générales. Ces architectures d'agents permettent aux robots de comprendre des commandes en langage naturel, d'invoquer des API, de planifier des séquences de tâches et de prendre en charge les opérations et les diagnostics. Reflétant l'évolution rapide de ce domaine, nous couvrons non seulement les recherches évaluées par les pairs, mais aussi les projets communautaires, les packages ROS et les cadres industriels. Nous proposons une taxonomie pour catégoriser les approches d'intégration de modèles et fournissons une analyse comparative du rôle des agents dans diverses solutions issues de la littérature actuelle.

Takeaways, Limitations

Takeaways:
Une présentation complète des tendances de recherche sur l'autonomie des robots et l'interface homme-robot basée sur des modèles de base.
Analyser systématiquement diverses approches et rôles dans l’architecture robotique basée sur les agents.
Réflexion complète sur les dernières tendances dans le domaine, y compris les projets menés par la communauté et les cadres industriels.
Contribuer à l’avancement du domaine de recherche en proposant un système de classification pour les approches d’intégration de modèles.
Limitations:
Il s’agit d’une présentation des tendances de recherche basées sur la date de publication de l’article (août 2025) et peut ne pas refléter les avancées technologiques ultérieures.
Bien que divers modèles et cadres aient été comparés et analysés, les comparaisons quantitatives des performances peuvent être limitées.
Manque de discussion approfondie sur la sécurité et la fiabilité des architectures basées sur des agents.
👍