Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MSARL : Découplage du raisonnement et de l'utilisation des outils grâce à l'apprentissage par renforcement multi-petits agents

Created by
  • Haebom

Auteur

Dayu Wang, Jiaye Yang, Weikang Li, Jiahui Liang, Yang Li

Contour

MSARL est un framework d'apprentissage par renforcement multi-agents dans lequel plusieurs petits agents collaborent par division du travail. Alors que les systèmes d'inférence intégrés aux outils existants reposent sur un seul grand modèle combinant inférence à long terme et manipulation précise des outils, ce qui entraîne une surcharge cognitive et une coordination instable, MSARL sépare explicitement l'inférence de l'utilisation des outils. L'agent d'inférence décompose le problème et planifie l'invocation des outils, tandis que plusieurs agents se spécialisent dans des outils externes spécifiques et sont entraînés par une combinaison d'apprentissage par imitation et d'apprentissage par renforcement, avec des récompenses spécifiques à chaque rôle. En résolution de problèmes mathématiques, y compris l'exécution de code, MSARL améliore significativement la stabilité de l'inférence et la précision des réponses finales par rapport aux modèles de base à agent unique. De plus, cette architecture se généralise à diverses tâches utilisant des outils, démontrant que la séparation des rôles cognitifs à l'aide de petits agents constitue un modèle évolutif pour la conception d'IA multi-agents.

Takeaways, Limitations

Takeaways:
Nous démontrons qu’un système multi-agents basé sur de petits agents peut réduire l’interférence de la charge cognitive et améliorer la stabilité et la précision de l’inférence.
Une conception qui sépare clairement le raisonnement de l’utilisation des outils suggère une architecture évolutive qui peut se généraliser à une variété de tâches d’utilisation des outils.
Les méthodes de formation combinant l’apprentissage par imitation et l’apprentissage par renforcement permettent un apprentissage efficace des agents outils.
Limitations:
Actuellement, l’accent est mis sur la résolution de problèmes mathématiques et l’exécution de code, et des recherches supplémentaires sont nécessaires sur la généralisabilité à d’autres types de tâches.
Des recherches supplémentaires pourraient être nécessaires sur les mécanismes efficaces de coopération et de coordination entre plusieurs petits agents.
Une validation supplémentaire de l’évolutivité et de la stabilité pour une application à des problèmes complexes du monde réel est nécessaire.
👍