MSARL est un framework d'apprentissage par renforcement multi-agents dans lequel plusieurs petits agents collaborent par division du travail. Alors que les systèmes d'inférence intégrés aux outils existants reposent sur un seul grand modèle combinant inférence à long terme et manipulation précise des outils, ce qui entraîne une surcharge cognitive et une coordination instable, MSARL sépare explicitement l'inférence de l'utilisation des outils. L'agent d'inférence décompose le problème et planifie l'invocation des outils, tandis que plusieurs agents se spécialisent dans des outils externes spécifiques et sont entraînés par une combinaison d'apprentissage par imitation et d'apprentissage par renforcement, avec des récompenses spécifiques à chaque rôle. En résolution de problèmes mathématiques, y compris l'exécution de code, MSARL améliore significativement la stabilité de l'inférence et la précision des réponses finales par rapport aux modèles de base à agent unique. De plus, cette architecture se généralise à diverses tâches utilisant des outils, démontrant que la séparation des rôles cognitifs à l'aide de petits agents constitue un modèle évolutif pour la conception d'IA multi-agents.